タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

pythonとPythonとbigdataに関するteddy-gのブックマーク (32)

  • NMF for Topic Modeling | Derek Greene's Home

    Topic modeling is a key tool for the discovery of hidden structure in large collections of documents. Probabilistic methods, such as Latent Dirichlet allocationTopic modeling is a key tool for the discovery of hidden structure in large collections of documents. Probabilistic methods, such as Latent Dirichlet allocation (LDA), are often employed by using tools such as the Java MALLET library. Howev

    NMF for Topic Modeling | Derek Greene's Home
    teddy-g
    teddy-g 2016/02/25
    Scikit LearnでBBCのニュース(テキスト)をNMFで分析する話、の解説記事のほう。ふむふむなるほど。
  • Jupyter Notebook Viewer

    teddy-g
    teddy-g 2016/02/25
    Scikit LearnでBBCのニュース(テキスト)をNMFで分析する話。この通りにipythonで走らせたらちゃんと結果が出てくる。なるほど。
  • 非負値行列因子分解 - sonoshouのまじめなブログ

    このエントリーは、集合知プログラミング第8章を参照にしています。 非負値行列因子分解は、データマイニングの手法の一つである。 データの重要な特徴を抽出するために用いられる。 非負値行列因子分解は、non-negative matrix factorizationの日語訳であり、 よくNMFと省略されるので、こちらの省略形も覚えておきたい。 非負値行列因子分解の基的なアイディア非負値行列因子分解は、その名の通り、行列を正の数(非負値)で因子分解することで、 特徴の抽出を行う。 因子分解とは、掛け合わせることで再び分解前の行列を構築できるような 2つの小さな行列を探し出すということである。 非負値行列因子分解の例以下、具体例を交えながら解説する。 文書の記事と記事内に存在する単語との対応付けがあるとき、 これらに対してNMFで特徴を抽出する。 対応付けの表は以下のようになっているとする。

    非負値行列因子分解 - sonoshouのまじめなブログ
    teddy-g
    teddy-g 2016/02/25
    Collective IntelligenceのNMFの説明そのままといってよい。備忘。
  • PythonのnimfaでNMFを試す - About connecting the dots.

    PythonでNMFやるには,nimfaというパッケージを使えばよいらしいです.とりあえず使うだけなら,適当なnumpy行列vecを用意して,以下のように関数に投げてあげます. factor = nimfa.mf(vec, seed='random_vcol', method='nmf', rank='5', max_iter=10) res = nimfa.mf_run(factor).basis() とりあえずシードはランダムで,手法はベーシックなnmf.何次元に削減するかをrankで指定して,イテレーション回数を決めればOKです. nmfは関連手法が山ほどあって,ざっと以下のようになります.説明文は基的に意訳です.正直意訳があってるかも自信はないので,こちらから元論文を読みましょう*1. 手法 概要 BD ギブスサンプラーを使ったベイジアンNMF BM バイナリのMF ICM It

    PythonのnimfaでNMFを試す - About connecting the dots.
    teddy-g
    teddy-g 2016/02/25
    nimfaっていうパッケージでNMFできるらしい。が、Scikit-Learnにもあるし使うかどうかは微妙。
  • Matrix Factorizationとは - Qiita

    Machine Learning Advent Calendarです。 普段はGunosyという会社で推薦システムを作ってます はじめに 推薦システムに関する最近の文献を読むと結構な割合で出てくるMatrix Factorizartion(MF)と呼ばれる手法があります。 ざっくり言うとこの手法は協調フィルタリングにおける次元削減を行うことでよりよい推薦を行おうという手法であり、 Netflix Prize(100万ドルの賞金が賭けられた推薦システムのコンテスト)で最も成果を上げたモデルの一つでもあります。 記事ではこの手法を紹介していきます。 協調フィルタリング まず協調フィルタリングについておさらいしましょう。 あるサービスで3人のユーザが5つのアイテムに対して5段階評価をしたとき、その評価値を以下のようにベクトルで表すことができます。

    Matrix Factorizationとは - Qiita
    teddy-g
    teddy-g 2016/02/25
    Matrix Factorizationの説明と実装。途中の概念説明がわかりやすい。あと、式の説明もある。
  • Principal components analysis using pandas dataframe

    teddy-g
    teddy-g 2016/02/17
    PandasとNumpyとScikit-Learn使ってPCAの簡単なサンプル。こいつ、動くぞ。
  • RとPythonの連携 – Momentum

    概要 ・PythonとRを連携させることで、PythonからRのコードを実行させる ・統計的な分析はRに、データのハンドリングなどはPythonに任せるのが現時点での最適解か ・この記事はR Advent Calendar 2014(https://atnd.org/events/58648)の12/10用の記事です モチベーション 専らRやPythonはトレーディング戦略のシミュレーションに用いているわけですが、たまには統計的な分析結果をもとにトレードする戦略などを考える時もあります。 シミュレーションの体はPythonで構築しているので、自ずとPythonで統計分析モジュールも構築する必要があるのですが、これがなかなかかゆいところに手が届かない。 (scikit-learn?知らない子ですね。) やはり屋ということで、統計分析はRに任せたい。 というか今まで培ってきたRのノウハ

    RとPythonの連携 – Momentum
  • Python for Financeという本 - xiangze's sparse blog

    ipython notebookを使って出版されたらしいPython for Financeというを読みました。 numpy, scipy, pandas, PyMC3をはじめとしたPythonの数値計算、解析系のパッケージを使った金融工学の計算事例と自作ライブラリについての紹介になっています。 Python for Finance: Analyze Big Financial Data 作者: Yves Hilpisch出版社/メーカー: Oreilly & Associates Inc発売日: 2014/12/27メディア: ペーパーバックこの商品を含むブログを見るhttp://shop.oreilly.com/product/0636920032441.do https://books.google.co.jp/books?id=7tzSBQAAQBAJ&printsec=fron

    Python for Financeという本 - xiangze's sparse blog
    teddy-g
    teddy-g 2015/05/20
    金融工学×Pythonは確かに気になる。
  • Caffe, Pylearn2をそれぞれinstallしたDockerコンテナをDocker Hubに公開した - CORDEA blog

    QiitaにてCaffe, Pylearn2のinstallに関する記事を投稿したところTwitterで次のような反応を頂きました。 やはり準備が鬼門すぎる。インストール済みのDockerコンテナとかがあればな・・・ Caffe, Pylearn2をまとめて試す by @_Cordea on @Qiita http://t.co/ktKeIHeTxD— ピクシィ (@icoxfog417) January 25, 2015 これは私も感じていたことで、installが一番の関門ではないにしろ、「ちょっと使ってみたい」というユーザーを阻むには十分すぎる障壁だろうと思います。 もちろん、Pylearn2はVagrantに慣れていればVMが公開されているのでそちらを使用する手もあります。 一応Dockerfileも書いてはいる(動作確認はしていない)のですが、そもそもDockerfileを使用す

    Caffe, Pylearn2をそれぞれinstallしたDockerコンテナをDocker Hubに公開した - CORDEA blog
    teddy-g
    teddy-g 2015/03/09
    Caffeとpylearn2を入れるときに参考になりそうなので備忘まで。
  • 主成分分析と独立成分分析とスパースコーディングの比較[python] - 無限の猿

    データを教師なしで変換する行列分解手法、主成分分析(PCA: Principle Component Analysis)、独立成分分析(ICA: Independent Component Analysis)、スパースコーディング(SC: Sparse Coding)の比較。 行列分解手法の明確な定義は知らないが、ここではデータを表すベクトルの集合を横に並べた行列をとして、基底を表す行列と係数のを表す行列の積、 に変換する手法とする。これはすなわち、元のデータをの列にあたる基底の線形和、 で表現することを意味する。はデータの基底で表される空間での表現に相当することになる。 ここでが決まっていれば、を求めるのは線形の逆問題(が正則な正方行列であればその逆行列をにかけてやれば良い)となるが、行列分解問題では双方を同時に求める問題となる。自由度も高くなり、、は一意には決まらない。したがって、、に

    teddy-g
    teddy-g 2014/09/05
    数式だらけだけど比較としてはわかりやすいな。まあ、ビジネスマン的には一緒なんだけど。
  • 単純パーセプトロンをPythonで組んでみる - 渋谷駅前で働くデータサイエンティストのブログ

    いきなり自分でハードル上げてみました(笑)。ちなみに何故単純パーセプトロンを最初に持ってきたのか?というと、id:echizen_tmさんのブログ記事でも触れておられる通り 機械学習には大きく分けて「識別関数」「識別モデル」「生成モデル」の3つの種類がある。このなかで識別関数は確率を使わないので初心者が入門するのに最適。 識別関数で有名なのはSVM(Support Vector Machine、サポートベクターマシン)。名前を聞いたことがある人も多いと思う。そこで早速SVMを学ぼうとすると敷居が高くて挫折しがち。 実はSVMは(大雑把に言うと)パーセプトロンという基礎的な識別関数に「マージン最大化」と「カーネル関数」という考え方を導入したもの。なので機械学習入門者は最初にパーセプトロンを学ぶのが良いと思われる。 それゆえ、実際に僕も以前Matlabで糞コード書きながら勉強してた時はやはり単

    単純パーセプトロンをPythonで組んでみる - 渋谷駅前で働くデータサイエンティストのブログ
    teddy-g
    teddy-g 2014/07/25
    これで単純パーセプトロンを分かった気になった。
  • 第17回 パーセプトロンを実装してみよう | gihyo.jp

    少し間が空いてしまいましたが、今回は実践編。第15回で紹介したパーセプトロンを実装してみましょう。 環境はこれまでと同じくPython/numpy/matplotlibを用います。インストールなどの準備は第6回を参照してください。 パーセプトロンの復習 第15回で紹介したパーセプトロンの学習アルゴリズムをもう一度簡単に振り返っておきましょう。 2次元平面上のデータ点(xn,yn)(n=1,…,N)に正解ラベルtn∈{+1,-1}が与えられているとします。パーセプトロンは、次の予測式の結果がすべて正解になるようにパラメータa, b, cを決めるものでした。 そのようなパラメータは、次の手順で求めることができます。 データの中からランダムに1点(xn,yn)を取り出し、f(x,y)に代入すると、現在のパラメータを用いた予測値として+1または-1が得られます。それが正解tnと一致する場合は何もせ

    第17回 パーセプトロンを実装してみよう | gihyo.jp
    teddy-g
    teddy-g 2014/06/19
    Pythonでパーセプトロンを実装する。特徴ベクトル化で1を尻につけてるのはバイアス。