labgaのブックマーク / 2013年3月15日

【形態素解析】Igoを改造して品詞IDを取得する - はと

Javaで日本語解析するのにIgoを使っていますが解析結果から各単語がどの品詞IDなのか欲しくなるときがあります。 igoの使い方辞書登録の方法 Igoをそのまま使ってもsurfaceとfeatureとstartくらいしか情報がとれません。「私は日本生まれです」これを解析してみます。 Tagger tagger = new Tagger("ipadic"); List<Morpheme> list = tagger.parse("私は日本生まれです"); for (Morpheme m : list) { String str = m.surface + "\t"+ m.feature + "\t"+ m.start ; System.out.println(str); } 私名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ 0 surface　私 feature　名詞,代名詞,一

labga 2013/03/15

リンク

Support Vector Machinesを用いた「魔法少女まどか☆マギカ」人物予測モデル - Y's note

言語処理のための機械学習入門 (自然言語処理シリーズ) 作者: 高村大也,奥村学出版社/メーカー: コロナ社発売日: 2010/07メディア: 単行本購入: 13人クリック: 235回この商品を含むブログ (39件) を見る人物予測モデル記事のタイトルがだいぶ固い内容になっていまいましたがやりたい事はとても簡単です。過去に発せられたまど☆マギ台詞の形態素を学習し、予測モデルを作成します。その後に未分類の形態素のデータセットを与えた時にどれだけ人物のラベル付けが正しく行われたかを評価します。予測モデルの対象となる人物は鹿目まどか/暁美ほむら/美樹さやか/キュゥべえ/佐倉杏子/巴マミの合計6名です。機械学習にはSVMを利用します。先に実験の結果をお伝えしておくと、台詞の形態素ベクトルでは十分なマルチラベリングができていません。それでもこの記事が気になる方は読み進めてください。処理手順の詳

labga 2013/03/15

リンク

svm数式を一切使用しないSVMの話間違っていたらごめんね!! - お前の血は何色だ!! 4

前に書いていた奴をまとめて prezi にしてみた。 http://d.hatena.ne.jp/rti7743/20100418/1271603136 svm数式を一切使用しないSVMの話 on Prezi

labga 2013/03/15

リンク

ソフトマージンSVM - 人工知能に関する断創録

前回（2010/5/2）のハードマージンSVMでは、データに重なりがある場合、下のようにちゃんと分類境界を求められませんでした。今回は、重なりのあるクラス分布に対応できるように拡張してみます。このようなSVMはハードマージンSVMに対してソフトマージンSVMと呼ばれます。別名としてC-SVMとも呼ばれるようです。 PRMLの7.1.1にあるように、データの誤分類を許すようにSVMを修正します。ハードマージンSVMでは、データ点がマージン内（-1 < y < 1）に絶対に入らないことを前提にしていましたが、ソフトマージンSVMでは「入ってしまったものは仕方ない、だがペナルティを与える！」と少し条件を緩めます。まず、スラック変数ζ（ゼータ）をデータごとに導入します。スラック変数は、データが正しく分類されかつマージン境界上または外側にある場合は0、正しく分類されているがマージン内に侵入してしま

labga 2013/03/15

リンク

Java version of LIBLINEARを使ってみる | mwSoft

導入ダウンロードは公式サイトから。 jar1個で動き、依存ライブラリはなし。Mavenのセントラルにも置いてある。jarファイルは51KBと超軽量。BSDライセンス。とても使い勝手が良さそう。 JavaDocはこちら。 train LIBLINEARはtrainで学習して、predictで結果予測を出力する。とりあえずtrainしてモデルを出力してみる。ファイルはC++版を落とした時に付いてくるサンプル、heart_scaleを利用。 heart_scaleは下記のような行が記述された270行のファイル。1〜13までの要素に対してそれぞれ値が入っており、最初の列に+1/-1という評価が入れられている。これを使って学習することで、別の1〜13までの要素を持った値に対して、+1/-1を判別できるようになる。 +1 1:0.708333 2:1 3:1 4:-0.320755 5:-0.1

labga 2013/03/15

svm

リンク

SVMツールと関連する論文まとめ - EchizenBlog-Zwei

最近SVM(Support Vector Machine)周りの復習をしているので有名どころのツールと、それに関連する論文をまとめた。完全に個人用メモなので抜けがあるかも。あくまで参考程度に。ツールは色々あるけれど使うのが目的なら定番のsvmlightやlibsvmがいい気がする。最近だとliblinearが流行っている。SVMといえばカーネル関数とマージン最大化だけれど、最近ではカーネルは線形でいいやという流れになってきている？個人的にはpegasosがわかり易い線形カーネル＋オンライン学習になっていて自分で作って遊ぶには良いと思っている。またsvmsgdは"straightforward stochastic gradient descent"と言っているものの非常に高性能で、それを実現するための様々な工夫が施されていて実装を学ぶ上で大変参考になる。ここには挙げていないけれど、線形カ

labga 2013/03/15

リンク

非線形サポートベクターマシン - きしだのHatena

とりあえず最適化の問題は置いておいて、ここを参考に非線形分離できるようにしてみました。 http://www.neuro.sfc.keio.ac.jp/~masato/study/SVM/SVM_3_1.htm さぁ，これで君も非線形SVMのコーディングができちゃうのだ．素晴らしき哉．ほんとにできた。うん、ぼくにも非線形SVMのコーディングができちゃいましたよ！すばらしきかな SVMも基本は線形分離なので、非線形分離に対応するにはパーセプトロンでやったようにデータの次元を増やしてそこで線形分離します。で、SVMがすごいのはそこでの計算をごにょごにょして、データの次元を実際には増やさずに高次元で計算したことにしてしまうのです。 SVMでは全データ同士の内積の計算をしていたのですが、その代わりにカーネル関数と呼ばれる関数を使います。カーネル関数には、高次元で内積を計算したことになるよう

labga 2013/03/15

リンク

ルールベースjuliusの誤認識対策にSVMを利用してみよう - お前の血は何色だ!! 4

前回やったことの続きです。ルールベースの音声認識をjuliusでやったときに過剰にマッチしまくる問題への対策です。前回、juliusのクセを観察し、独自のスコアリングをやりました。多少は誤認識に強くなったのですが、それでも人と人が会話や議論するような短文のやり取りにさらされると、やっぱり誤認識してしまいます。 SVM もう、これは単純なパラメータの閾値では無理です。ある閾値がそれを超えたら捨てるなどの単純な話ではないのです。複数のパラメータが複雑に絡み合った世界です。それをニンゲンの手で観察し、推論していては時間が膨大にかかってしまいます。人間でやると大変なことは、機械にやらせましょう。と、いうわけで、機械学習です。今回は、機会学習の中からSVMを利用します。 SVMは精度もさることながら、学習速度はやや問題があるものの、判別は高速ですし、何よりライブラリが比較的揃ってお

labga 2013/03/15

リンク

「Google X Labs」、コンピュータによる人間の脳シミュレーションで大きな成果

秘密主義の「Google X Labs」で働くGoogleの科学者らは、コンピュータを使って人間の脳をシミュレートすることに関して、大幅な進歩を遂げた。自動運転車や拡張現実メガネの発明で最もよく知られる同研究所は、1万6000個のコンピュータプロセッサを接続して機械学習用のニューラルネットワークを作り出し、インターネットを徘徊させた。その過程で、同ネットワークは猫を認識する能力を自ら身につけた。インターネット上で猫を見つける行為はそれほど困難なものに思えないが、The New York Times（NYT）の記事によると、同ネットワークの性能は研究者らの予想を上回るものであり、2万個のアイテムリストから物体を識別するときの精度が2倍に向上したという。猫を見つけるために、同チームは100億件以上のYouTube動画から無作為に選択したサムネイル画像を同ネットワークに与えた。その結果は、

labga 2013/03/15

リンク

ベイズと認知モデルと教師なし学習

Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Probl em...joisino

labga 2013/03/15

リンク

大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記

大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日本語コーパスの情報については以下のエントリをご覧ください。NLP関係のリソースまとめ - nokunoの日記大規模データのエントリが伸びており、この問題に関心のある人の多さが伺えますね。NLP屋としてはやはり、大規模データの中でもテキストデータ（コーパス）に興味のあるところです。大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記タグ付きコーパス（ツリーバンク）Penn Tree bankWSJ C

labga 2013/03/15

リンク

https://nlp.ist.i.kyoto-u.ac.jp/member/kawahara/paper/NLP2002-1.pdf

labga 2013/03/15

リンク

５ちゃんねる error 3001

labga 2013/03/15

リンク

SVMの双対問題について - take a keen edge

SVMの復習してるのでメモ。双対問題の導出で、だいたいどの参考書やウェブ上の資料見ても「ラグランジュの未定乗数法使えばいいよ！」というとこまでは書いてあるが、 wとbを消してラグランジュ乗数αのみで表したラグランジュ関数(Lagrangian)の最大化がなぜ双対問題になるのか、よくわからなかったのでまとめました。私が以前学習したときも、ラグランジュ関数の導出だけで「すげーｗ」と思考停止していた。【ラグランジュ関数】以下の非線形計画問題を考える。この問題のラグランジュ関数は次のように定義される。【元関数とラグランジュ関数】ラグランジュ関数に対し、と固定したときなる最適化問題を考える。となるが存在すればととることでとなる。一方全てのに対してであれば、のとき最適値を得る。このようにこの問題の最適値はに依存するのでこれをとおくとと表せ、のに関する最小値は初め

labga 2013/03/15

リンク

SVMについて

SVMについて自分なりにまとめて，授業でプレゼンしたもの．時間的に間に合わなかったりして内容が不完全だったりするけども，読めば線形SVMの実装ぐらいはできるかも．独学なので間違いがある可能性も．Read less

labga 2013/03/15

リンク

http://web.sfc.keio.ac.jp/~naoe/security/documents/naoe/Support_Vector_Machine_ver2.pdf

labga 2013/03/15

リンク

双対問題＜線形計画法（ＬＰ）＜オペレーションズ・リサーチ＜Ｗｅｂ教材＜木暮

学習のポイントさきにシャドウ・プライスの概念を学習しました。その概念は双対問題へと発展します。キーワード線形計画法，双対問題，シャドウ・プライス双対問題の概念次のような問題が与えられていたとします。目的関数ｖ１ｘ１＋ｖ２ｘ２＋・・・＋ｖｎｘｎ → 最大制約条件ａ１１ｘ１＋ａ１２ｘ２＋・・・＋ａ１ｎｘｎ ≦ ｂ１ａ２１ｘ１＋ａ２２ｘ２＋・・・＋ａ２ｎｘｎ ≦ ｂ２・・・・・・・・・・・ａｍ１ｘ１＋ａｍ２ｘ２＋・・・＋ａｍｎｘｎ ≦ ｂｍｘ１，ｘ１，・・・，ｘｎ ≧ ０この問題を、ｍ個の変数ｕ１，ｕ１，・・・，ｕｍを考えることにりり、次のように変形します。・制約式の右辺ｂを、目的関数の係数にする。・目的関数の係数ｖを、制約式の右辺にする。・制約式の不等号の向きを反対にする。・制約式の係数ａｉｊの行と列をとりかえて、ａｊｉを係数とする。・最

labga 2013/03/15

数学

リンク

はてなブックマーク

タグ

2013年3月15日のブックマーク (17件)

【形態素解析】Igoを改造して品詞IDを取得する - はと

Support Vector Machinesを用いた「魔法少女まどか☆マギカ」人物予測モデル - Y's note

svm数式を一切使用しないSVMの話間違っていたらごめんね!! - お前の血は何色だ!! 4

ソフトマージンSVM - 人工知能に関する断創録

Java version of LIBLINEARを使ってみる | mwSoft

SVMツールと関連する論文まとめ - EchizenBlog-Zwei

非線形サポートベクターマシン - きしだのHatena

ルールベースjuliusの誤認識対策にSVMを利用してみよう - お前の血は何色だ!! 4

「Google X Labs」、コンピュータによる人間の脳シミュレーションで大きな成果

ベイズと認知モデルと教師なし学習

大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記

https://nlp.ist.i.kyoto-u.ac.jp/member/kawahara/paper/NLP2002-1.pdf

５ちゃんねる error 3001

SVMの双対問題について - take a keen edge

SVMについて

http://web.sfc.keio.ac.jp/~naoe/security/documents/naoe/Support_Vector_Machine_ver2.pdf

双対問題＜線形計画法（ＬＰ）＜オペレーションズ・リサーチ＜Ｗｅｂ教材＜木暮

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス