[B! python][Python][bigdata] [2ページ] teddy-gのブックマーク

teddy-g id:teddy-g

pythonとPythonとbigdataに関するteddy-gのブックマーク (32)

NMF for Topic Modeling | Derek Greene's Home
Topic modeling is a key tool for the discovery of hidden structure in large collections of documents. Probabilistic methods, such as Latent Dirichlet allocationTopic modeling is a key tool for the discovery of hidden structure in large collections of documents. Probabilistic methods, such as Latent Dirichlet allocation (LDA), are often employed by using tools such as the Java MALLET library. Howev
teddy-g 2016/02/25
Scikit LearnでBBCのニュース（テキスト）をNMFで分析する話、の解説記事のほう。ふむふむなるほど。

python

scikit-learn

statistics

bigdata

machinelearning

numpy

nmf

ipython
リンク
Jupyter Notebook Viewer
teddy-g 2016/02/25
Scikit LearnでBBCのニュース（テキスト）をNMFで分析する話。この通りにipythonで走らせたらちゃんと結果が出てくる。なるほど。

python

scikit-learn

statistics

bigdata

machinelearning

numpy

nmf

ipython
リンク
非負値行列因子分解 - sonoshouのまじめなブログ
このエントリーは、集合知プログラミング第８章を参照にしています。非負値行列因子分解は、データマイニングの手法の一つである。データの重要な特徴を抽出するために用いられる。非負値行列因子分解は、non-negative matrix factorizationの日本語訳であり、よくNMFと省略されるので、こちらの省略形も覚えておきたい。非負値行列因子分解の基本的なアイディア非負値行列因子分解は、その名の通り、行列を正の数（非負値）で因子分解することで、特徴の抽出を行う。因子分解とは、掛け合わせることで再び分解前の行列を構築できるような２つの小さな行列を探し出すということである。非負値行列因子分解の例以下、具体例を交えながら解説する。文書の記事と記事内に存在する単語との対応付けがあるとき、これらに対してNMFで特徴を抽出する。対応付けの表は以下のようになっているとする。
teddy-g 2016/02/25
Collective IntelligenceのNMFの説明そのままといってよい。備忘。

python

machinelearning

bigdata

statistics

nmf
リンク
PythonのnimfaでNMFを試す - About connecting the dots.
PythonでNMFやるには，nimfaというパッケージを使えばよいらしいです．とりあえず使うだけなら，適当なnumpy行列vecを用意して，以下のように関数に投げてあげます． factor = nimfa.mf(vec, seed='random_vcol', method='nmf', rank='5', max_iter=10) res = nimfa.mf_run(factor).basis() とりあえずシードはランダムで，手法はベーシックなnmf．何次元に削減するかをrankで指定して，イテレーション回数を決めればOKです． nmfは関連手法が山ほどあって，ざっと以下のようになります．説明文は基本的に意訳です．正直意訳があってるかも自信はないので，こちらから元論文を読みましょう*1．手法概要 BD ギブスサンプラーを使ったベイジアンNMF BM バイナリのMF ICM It
teddy-g 2016/02/25
nimfaっていうパッケージでNMFできるらしい。が、Scikit-Learnにもあるし使うかどうかは微妙。

python

nmf

machinelearning

bigdata
リンク
Matrix Factorizationとは - Qiita
Machine Learning Advent Calendarです。普段はGunosyという会社で推薦システムを作ってますはじめに推薦システムに関する最近の文献を読むと結構な割合で出てくるMatrix Factorizartion(MF)と呼ばれる手法があります。ざっくり言うとこの手法は協調フィルタリングにおける次元削減を行うことでよりよい推薦を行おうという手法であり、 Netflix Prize(100万ドルの賞金が賭けられた推薦システムのコンテスト)で最も成果を上げたモデルの一つでもあります。本記事ではこの手法を紹介していきます。協調フィルタリングまず協調フィルタリングについておさらいしましょう。あるサービスで3人のユーザが５つのアイテムに対して5段階評価をしたとき、その評価値を以下のようにベクトルで表すことができます。
teddy-g 2016/02/25
Matrix Factorizationの説明と実装。途中の概念説明がわかりやすい。あと、式の説明もある。

machine learning

python

bigdata

matrixfactorization

statistics

numpy

scipy
リンク
Principal components analysis using pandas dataframe
teddy-g 2016/02/17
PandasとNumpyとScikit-Learn使ってPCAの簡単なサンプル。こいつ、動くぞ。

python

pandas

numpy

scikit-learn

machinelearning

bigdata

statistics
リンク
RとPythonの連携 – Momentum
概要・PythonとRを連携させることで、PythonからRのコードを実行させる・統計的な分析はRに、データのハンドリングなどはPythonに任せるのが現時点での最適解か・この記事はR Advent Calendar 2014(https://atnd.org/events/58648)の12/10用の記事ですモチベーション専らRやPythonはトレーディング戦略のシミュレーションに用いているわけですが、たまには統計的な分析結果をもとにトレードする戦略などを考える時もあります。シミュレーションの本体はPythonで構築しているので、自ずとPythonで統計分析モジュールも構築する必要があるのですが、これがなかなかかゆいところに手が届かない。 (scikit-learn?知らない子ですね。) やはり餅は餅屋ということで、統計分析はRに任せたい。というか今まで培ってきたRのノウハ
teddy-g 2015/12/08
PyoeR

python

R

bigdata

statistics

analytics
リンク
Python for Financeという本 - xiangze's sparse blog
ipython notebookを使って出版されたらしいPython for Financeという本を読みました。 numpy, scipy, pandas, PyMC3をはじめとしたPythonの数値計算、解析系のパッケージを使った金融工学の計算事例と自作ライブラリについての紹介になっています。 Python for Finance: Analyze Big Financial Data 作者: Yves Hilpisch出版社/メーカー: Oreilly & Associates Inc発売日: 2014/12/27メディア: ペーパーバックこの商品を含むブログを見るhttp://shop.oreilly.com/product/0636920032441.do https://books.google.co.jp/books?id=7tzSBQAAQBAJ&printsec=fron
teddy-g 2015/05/20
金融工学×Pythonは確かに気になる。

python

finance

analytics

analysis

bigdata
リンク
Caffe, Pylearn2をそれぞれinstallしたDockerコンテナをDocker Hubに公開した - CORDEA blog
QiitaにてCaffe, Pylearn2のinstallに関する記事を投稿したところTwitterで次のような反応を頂きました。やはり準備が鬼門すぎる。インストール済みのDockerコンテナとかがあればな・・・ Caffe, Pylearn2をまとめて試す by @_Cordea on @Qiita http://t.co/ktKeIHeTxD— ピクシィ (@icoxfog417) January 25, 2015 これは私も感じていたことで、installが一番の関門ではないにしろ、「ちょっと使ってみたい」というユーザーを阻むには十分すぎる障壁だろうと思います。もちろん、Pylearn2はVagrantに慣れていればVMが公開されているのでそちらを使用する手もあります。一応Dockerfileも書いてはいる(動作確認はしていない)のですが、そもそもDockerfileを使用す
teddy-g 2015/03/09
Caffeとpylearn2を入れるときに参考になりそうなので備忘まで。

deep

deeplearning

python

docker

pylearn2

caffe

bigdata

advancedanytics

analytics
リンク
主成分分析と独立成分分析とスパースコーディングの比較[python] - 無限の猿
データを教師なしで変換する行列分解手法、主成分分析（PCA: Principle Component Analysis）、独立成分分析（ICA: Independent Component Analysis）、スパースコーディング(SC: Sparse Coding）の比較。行列分解手法の明確な定義は知らないが、ここではデータを表すベクトルの集合を横に並べた行列をとして、基底を表す行列と係数のを表す行列の積、に変換する手法とする。これはすなわち、元のデータをの列にあたる基底の線形和、で表現することを意味する。はデータの基底で表される空間での表現に相当することになる。ここでが決まっていれば、を求めるのは線形の逆問題（が正則な正方行列であればその逆行列をにかけてやれば良い）となるが、行列分解問題では双方を同時に求める問題となる。自由度も高くなり、、は一意には決まらない。したがって、、に
teddy-g 2014/09/05
数式だらけだけど比較としてはわかりやすいな。まあ、ビジネスマン的には一緒なんだけど。

programming

python

analytics

analysis

bigdata
リンク
単純パーセプトロンをPythonで組んでみる - 渋谷駅前で働くデータサイエンティストのブログ
いきなり自分でハードル上げてみました（笑）。ちなみに何故単純パーセプトロンを最初に持ってきたのか？というと、id:echizen_tmさんのブログ記事でも触れておられる通り機械学習には大きく分けて「識別関数」「識別モデル」「生成モデル」の3つの種類がある。このなかで識別関数は確率を使わないので初心者が入門するのに最適。識別関数で有名なのはSVM(Support Vector Machine、サポートベクターマシン)。名前を聞いたことがある人も多いと思う。そこで早速SVMを学ぼうとすると敷居が高くて挫折しがち。実はSVMは(大雑把に言うと)パーセプトロンという基礎的な識別関数に「マージン最大化」と「カーネル関数」という考え方を導入したもの。なので機械学習入門者は最初にパーセプトロンを学ぶのが良いと思われる。それゆえ、実際に僕も以前Matlabで糞コード書きながら勉強してた時はやはり単
teddy-g 2014/07/25
これで単純パーセプトロンを分かった気になった。

analytics

analysis

R

python

bigdata
リンク
第17回　パーセプトロンを実装してみよう | gihyo.jp
少し間が空いてしまいましたが、今回は実践編。第15回で紹介したパーセプトロンを実装してみましょう。環境はこれまでと同じくPython/numpy/matplotlibを用います。インストールなどの準備は第6回を参照してください。パーセプトロンの復習第15回で紹介したパーセプトロンの学習アルゴリズムをもう一度簡単に振り返っておきましょう。 2次元平面上のデータ点(xn,yn)(n=1,…,N)に正解ラベルtn∈{+1,-1}が与えられているとします。パーセプトロンは、次の予測式の結果がすべて正解になるようにパラメータa, b, cを決めるものでした。そのようなパラメータは、次の手順で求めることができます。データの中からランダムに1点(xn,yn)を取り出し、f(x,y)に代入すると、現在のパラメータを用いた予測値として＋1または－1が得られます。それが正解tnと一致する場合は何もせ
teddy-g 2014/06/19
Pythonでパーセプトロンを実装する。特徴ベクトル化で1を尻につけてるのはバイアス。

bigdata

analysis

analytics

python

neuralnetwork
リンク
前のページ 1 2