[B! Machine Learning] shun9167のブックマーク

カイ二乗値を用いた特徴選択 - 人工知能に関する断創録

相互情報量を用いた特徴選択（2010/6/19）のつづきです。今回は、相互情報量ではなく、カイ二乗値を用いて特徴語を抽出してみます。カイ二乗検定は独立性の検定によく使いますけど、特徴語の抽出にも応用できるってのははじめて知りました。結局のところ相互情報量もカイ二乗値もカテゴリと単語がどれくらい依存しているかを表す尺度なのでアプローチは似ている感じがします。IIRの13.5を参考にして実装します。カイ二乗値カイ二乗値の定義は、です。NやEが出てきますが、下のようなクロス表を用いて計算します。たとえば、単語「iPhone」とカテゴリ「IT」のカイ二乗値を求めたいとき、クロス表は下のようになります。たとえば、カテゴリがITで単語iPhoneを含む文書はデータ中にN11個あるなどと解釈します。カテゴリがITであるカテゴリがITでない計単語iPhoneを含む N11 (E11) N10

shun9167 2015/09/14

リンク

scikit-learnとgensimでニュース記事を分類する - Qiita

こんにちは、初心者です。適当なニュース記事があったとして、ニュースのカテゴリを推測するみたいな、よくあるやつをやってみました。Python3.3を使いました。何をやるの？データセットはlivedoorニュースコーパスを使いました。 http://www.rondhuit.com/download.html#ldcc クリエイティブ・コモンズライセンスが適用されるニュース記事だけを集めてるそうです。トピックニュース、Sports Watch、ITライフハック、家電チャンネル、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy というクラスがあります。データは、1記事1テキストファイルの形式で、クラス別のディレクトリにいっぱい入っています。これを学習して、未知の文章に対して、お前は独女通信っぽい、お前は家電チャンネルっぽい、みたいに、分類が

shun9167 2015/09/13

リンク

Java で統計とか機械学習とか自然言語処理とかをやりたいときに役立つライブラリ達

BizReach 社にお邪魔して発表したときのスライドです。

shun9167 2015/09/13

リンク

なんだか雲行きの怪しい雑記帖今更LIBSVMについてちょっと

公式ページ：LIBSVM -- A Library for Support Vector Machines サポートベクトルマシン（SupportVectorMachine）を学習（したり評価したり）するためのライブラリ。サポートベクトルマシンの説明は省きますが、LIBSVMを使えばカーネルトリックを用いた非線形SVMの学習（自分で設計したカーネルも使用可能）マルチクラス分類のSVMの学習（one vs oneとか※）グリッドサーチなど学習するための便利（必須）なツールが標準装備（Pythonが必要）拡張やツールなどもそこそこ豊潤（LIBSVM Tools） ※昔はone versus restによる実装だったそうですが，実験の結果精度がいいone versus oneのマルチクラス識別器になったそうです．ソースはQ: What method does libsvm use f

shun9167 2015/09/13

リンク

DSIRNLP#1 ランキング学習ことはじめ

PyData.Tokyo Meetup #18での講演資料です。 https://pydatatokyo.connpass.com/event/ 東京大学松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です．強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています．巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました．主に以下のような強化学習の概念やアルゴリズムの紹介をしています．・マルコフ決定過程・ベルマン方程式・モデルフリー強化学習・モデルベース強化学習・TD学習・Q学習・SARSA ・適格度トレース・関数近似・方策勾配法・方策勾配定理・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN（Deep Q-Network）・経験再生・Double D