タグ

2016年2月25日のブックマーク (9件)

  • BBC Datasets - Machine Learning Group (UCD)

    Two news article datasets, originating from BBC News, provided for use as benchmarks for machine learning research. These datasets are made available for non-commercial and research purposes only. If you make use of these datasets please consider citing the publication: D. Greene and P. Cunningham. "Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering", Proc. ICML

    teddy-g
    teddy-g 2016/02/25
    BBCのニュース記事とか無償で提供してるやつ。サンプル制作用に。
  • pandasでよく使う文法まとめ - Qiita

    Pythonデータ分析用ライブラリ「pandas」でよく使う文法をまとめました. Change log 2019-02-18 表示拡大の方法を更新 2018-05-06 コメント反映(pd.set_option('display.width', 100)) 2018-02-14 リンクの修正 2017-11-01 df.fillna(method='ffill')の説明を修正 2017-06-09 リンク切れ等の修正 2016-10-10 例の編集 2016-06-21 df.rolling, pd.date_range, pd.datetime, df.pivotの追加,その他の例の追加

    pandasでよく使う文法まとめ - Qiita
    teddy-g
    teddy-g 2016/02/25
    Pandasのデータフレーム処理について。NaNを削除したり、定数で穴埋めしたり、Interpolateしたり、GroupByしたり、resampleしたりと色々と使える機能がある。
  • Python Pandasでのデータ操作の初歩まとめ − 前半:データ作成&操作編 - Qiita

    はじめに Pythonデータ分析を扱う上で必須となる、Pandasでのデータ操作方法の 初歩についてまとめました。 ついつい忘れてしまう重要文法から、ちょっとしたTipsなどを盛り込んでいます。 こんな人にオススメ → Pandasを初めて触ってみたい! → Rが使えることをPythonでもやってみてーなー → Pandasの文法覚えきれねー どっかに一覧があれば便利なのに... → そもそもPythonでデータハンドリングってどれくらいできるものなのさ こちらも合わせてどうぞ ◆Pandasでデータ操作:Pandas_plyを使う http://qiita.com/hik0107/items/3dd260d9939a5e61c4f6 データを作ってみよう import pandas as pd df_sample =\ pd.DataFrame([["day1","day2","day

    Python Pandasでのデータ操作の初歩まとめ − 前半:データ作成&操作編 - Qiita
    teddy-g
    teddy-g 2016/02/25
    Pandasのデータフレーム処理について。地味に列名とかインデックス名とか忘れがち。
  • Pythonで無限大(inf)や不定(Nan)を判定する

    無限大(inf)をチェックする方法 inf = float("inf") if(val == inf): #valが無限大だったときの処理を書く float("inf")で無限大を作ることが出来る。無限大チェックは通常アプリではなかなかやらないかも知れない。 Nanをチェックする方法 if( val != val ): #valがNanだったときの処理を書く PythonではNanとNanを比較するとFalseがかえってくるため。なお、Python2.6以降ではmath.isnal(val)で調べることが出来る。 こちらはとてもよく使う。けど、初めてこのコードを見たら、何やってんだコレ?となってしまいそうなので、# Nan Check とでもコメントを添えておくことにしよう。

    Pythonで無限大(inf)や不定(Nan)を判定する
    teddy-g
    teddy-g 2016/02/25
    NaNを判定する方法は知っておくと便利な気がした。
  • NMF for Topic Modeling | Derek Greene's Home

    Topic modeling is a key tool for the discovery of hidden structure in large collections of documents. Probabilistic methods, such as Latent Dirichlet allocationTopic modeling is a key tool for the discovery of hidden structure in large collections of documents. Probabilistic methods, such as Latent Dirichlet allocation (LDA), are often employed by using tools such as the Java MALLET library. Howev

    NMF for Topic Modeling | Derek Greene's Home
    teddy-g
    teddy-g 2016/02/25
    Scikit LearnでBBCのニュース(テキスト)をNMFで分析する話、の解説記事のほう。ふむふむなるほど。
  • Jupyter Notebook Viewer

    teddy-g
    teddy-g 2016/02/25
    Scikit LearnでBBCのニュース(テキスト)をNMFで分析する話。この通りにipythonで走らせたらちゃんと結果が出てくる。なるほど。
  • 非負値行列因子分解 - sonoshouのまじめなブログ

    このエントリーは、集合知プログラミング第8章を参照にしています。 非負値行列因子分解は、データマイニングの手法の一つである。 データの重要な特徴を抽出するために用いられる。 非負値行列因子分解は、non-negative matrix factorizationの日語訳であり、 よくNMFと省略されるので、こちらの省略形も覚えておきたい。 非負値行列因子分解の基的なアイディア非負値行列因子分解は、その名の通り、行列を正の数(非負値)で因子分解することで、 特徴の抽出を行う。 因子分解とは、掛け合わせることで再び分解前の行列を構築できるような 2つの小さな行列を探し出すということである。 非負値行列因子分解の例以下、具体例を交えながら解説する。 文書の記事と記事内に存在する単語との対応付けがあるとき、 これらに対してNMFで特徴を抽出する。 対応付けの表は以下のようになっているとする。

    非負値行列因子分解 - sonoshouのまじめなブログ
    teddy-g
    teddy-g 2016/02/25
    Collective IntelligenceのNMFの説明そのままといってよい。備忘。
  • PythonのnimfaでNMFを試す - About connecting the dots.

    PythonでNMFやるには,nimfaというパッケージを使えばよいらしいです.とりあえず使うだけなら,適当なnumpy行列vecを用意して,以下のように関数に投げてあげます. factor = nimfa.mf(vec, seed='random_vcol', method='nmf', rank='5', max_iter=10) res = nimfa.mf_run(factor).basis() とりあえずシードはランダムで,手法はベーシックなnmf.何次元に削減するかをrankで指定して,イテレーション回数を決めればOKです. nmfは関連手法が山ほどあって,ざっと以下のようになります.説明文は基的に意訳です.正直意訳があってるかも自信はないので,こちらから元論文を読みましょう*1. 手法 概要 BD ギブスサンプラーを使ったベイジアンNMF BM バイナリのMF ICM It

    PythonのnimfaでNMFを試す - About connecting the dots.
    teddy-g
    teddy-g 2016/02/25
    nimfaっていうパッケージでNMFできるらしい。が、Scikit-Learnにもあるし使うかどうかは微妙。
  • Matrix Factorizationとは - Qiita

    Machine Learning Advent Calendarです。 普段はGunosyという会社で推薦システムを作ってます はじめに 推薦システムに関する最近の文献を読むと結構な割合で出てくるMatrix Factorizartion(MF)と呼ばれる手法があります。 ざっくり言うとこの手法は協調フィルタリングにおける次元削減を行うことでよりよい推薦を行おうという手法であり、 Netflix Prize(100万ドルの賞金が賭けられた推薦システムのコンテスト)で最も成果を上げたモデルの一つでもあります。 記事ではこの手法を紹介していきます。 協調フィルタリング まず協調フィルタリングについておさらいしましょう。 あるサービスで3人のユーザが5つのアイテムに対して5段階評価をしたとき、その評価値を以下のようにベクトルで表すことができます。

    Matrix Factorizationとは - Qiita
    teddy-g
    teddy-g 2016/02/25
    Matrix Factorizationの説明と実装。途中の概念説明がわかりやすい。あと、式の説明もある。