teddy-gのブックマーク / 2016年2月25日

teddy-g id:teddy-g

2016年2月25日のブックマーク (9件)

BBC Datasets - Machine Learning Group (UCD)
Two news article datasets, originating from BBC News, provided for use as benchmarks for machine learning research. These datasets are made available for non-commercial and research purposes only. If you make use of these datasets please consider citing the publication: D. Greene and P. Cunningham. "Practical Solutions to the Probl em of Diagonal Dominance in Kernel Document Clustering", Proc. ICML
teddy-g 2016/02/25
BBCのニュース記事とか無償で提供してるやつ。サンプル制作用に。

bigdata

database

opendata
リンク
pandasでよく使う文法まとめ - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2016/02/25
Pandasのデータフレーム処理について。NaNを削除したり、定数で穴埋めしたり、Interpolateしたり、GroupByしたり、resampleしたりと色々と使える機能がある。

python

pandas
リンク
Python Pandasでのデータ操作の初歩まとめ − 前半：データ作成＆操作編 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2016/02/25
Pandasのデータフレーム処理について。地味に列名とかインデックス名とか忘れがち。

python

pandas
リンク
Pythonで無限大（inf)や不定（Nan）を判定する
無限大（inf）をチェックする方法 inf = float("inf") if(val == inf): #valが無限大だったときの処理を書く float("inf")で無限大を作ることが出来る。無限大チェックは通常アプリではなかなかやらないかも知れない。 Nanをチェックする方法 if( val != val ): #valがNanだったときの処理を書く PythonではNanとNanを比較するとFalseがかえってくるため。なお、Python2.6以降ではmath.isnal(val）で調べることが出来る。こちらはとてもよく使う。けど、初めてこのコードを見たら、何やってんだコレ？となってしまいそうなので、# Nan Check　とでもコメントを添えておくことにしよう。
teddy-g 2016/02/25
NaNを判定する方法は知っておくと便利な気がした。

python
リンク
NMF for Topic Modeling | Derek Greene's Home
Topic modeling is a key tool for the discovery of hidden structure in large collections of documents. Probabilistic methods, such as Latent Dirichlet allocationTopic modeling is a key tool for the discovery of hidden structure in large collections of documents. Probabilistic methods, such as Latent Dirichlet allocation (LDA), are often employed by using tools such as the Java MALLET library. Howev
teddy-g 2016/02/25
Scikit LearnでBBCのニュース（テキスト）をNMFで分析する話、の解説記事のほう。ふむふむなるほど。

python

scikit-learn

statistics

bigdata

machinelearning

numpy

nmf

ipython
リンク
Jupyter Notebook Viewer
teddy-g 2016/02/25
Scikit LearnでBBCのニュース（テキスト）をNMFで分析する話。この通りにipythonで走らせたらちゃんと結果が出てくる。なるほど。

python

scikit-learn

statistics

bigdata

machinelearning

numpy

nmf

ipython
リンク
非負値行列因子分解 - sonoshouのまじめなブログ
このエントリーは、集合知プログラミング第８章を参照にしています。非負値行列因子分解は、データマイニングの手法の一つである。データの重要な特徴を抽出するために用いられる。非負値行列因子分解は、non-negative matrix factorizationの日本語訳であり、よくNMFと省略されるので、こちらの省略形も覚えておきたい。非負値行列因子分解の基本的なアイディア非負値行列因子分解は、その名の通り、行列を正の数（非負値）で因子分解することで、特徴の抽出を行う。因子分解とは、掛け合わせることで再び分解前の行列を構築できるような２つの小さな行列を探し出すということである。非負値行列因子分解の例以下、具体例を交えながら解説する。文書の記事と記事内に存在する単語との対応付けがあるとき、これらに対してNMFで特徴を抽出する。対応付けの表は以下のようになっているとする。
teddy-g 2016/02/25
Collective IntelligenceのNMFの説明そのままといってよい。備忘。

python

machinelearning

bigdata

statistics

nmf
リンク
PythonのnimfaでNMFを試す - About connecting the dots.
PythonでNMFやるには，nimfaというパッケージを使えばよいらしいです．とりあえず使うだけなら，適当なnumpy行列vecを用意して，以下のように関数に投げてあげます． factor = nimfa.mf(vec, seed='random_vcol', method='nmf', rank='5', max_iter=10) res = nimfa.mf_run(factor).basis() とりあえずシードはランダムで，手法はベーシックなnmf．何次元に削減するかをrankで指定して，イテレーション回数を決めればOKです． nmfは関連手法が山ほどあって，ざっと以下のようになります．説明文は基本的に意訳です．正直意訳があってるかも自信はないので，こちらから元論文を読みましょう*1．手法概要 BD ギブスサンプラーを使ったベイジアンNMF BM バイナリのMF ICM It
teddy-g 2016/02/25
nimfaっていうパッケージでNMFできるらしい。が、Scikit-Learnにもあるし使うかどうかは微妙。

python

nmf

machinelearning

bigdata
リンク
Matrix Factorizationとは - Qiita
Machine Learning Advent Calendarです。普段はGunosyという会社で推薦システムを作ってますはじめに推薦システムに関する最近の文献を読むと結構な割合で出てくるMatrix Factorizartion(MF)と呼ばれる手法があります。ざっくり言うとこの手法は協調フィルタリングにおける次元削減を行うことでよりよい推薦を行おうという手法であり、 Netflix Prize(100万ドルの賞金が賭けられた推薦システムのコンテスト)で最も成果を上げたモデルの一つでもあります。本記事ではこの手法を紹介していきます。協調フィルタリングまず協調フィルタリングについておさらいしましょう。あるサービスで3人のユーザが５つのアイテムに対して5段階評価をしたとき、その評価値を以下のようにベクトルで表すことができます。
teddy-g 2016/02/25
Matrix Factorizationの説明と実装。途中の概念説明がわかりやすい。あと、式の説明もある。

machine learning

python

bigdata

matrixfactorization

statistics

numpy

scipy
リンク
- 2016年2月27日
- 2016年2月25日
- 2016年2月24日