タグ

2013年3月15日のブックマーク (17件)

  • 【形態素解析】Igoを改造して品詞IDを取得する - はと

    Javaで日語解析するのにIgoを使っていますが解析結果から各単語がどの品詞IDなのか欲しくなるときがあります。 igoの使い方 辞書登録の方法 Igoをそのまま使ってもsurfaceとfeatureとstartくらいしか情報がとれません。 「私は日生まれです」これを解析してみます。 Tagger tagger = new Tagger("ipadic"); List<Morpheme> list = tagger.parse("私は日生まれです"); for (Morpheme m : list) { String str = m.surface + "\t"+ m.feature + "\t"+ m.start ; System.out.println(str); } 私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ 0 surface 私 feature 名詞,代名詞,一

    【形態素解析】Igoを改造して品詞IDを取得する - はと
  • Support Vector Machinesを用いた「魔法少女まどか☆マギカ」人物予測モデル - Y's note

    言語処理のための機械学習入門 (自然言語処理シリーズ) 作者: 高村大也,奥村学出版社/メーカー: コロナ社発売日: 2010/07メディア: 単行購入: 13人 クリック: 235回この商品を含むブログ (39件) を見る 人物予測モデル 記事のタイトルがだいぶ固い内容になっていまいましたがやりたい事はとても簡単です。過去に発せられたまど☆マギ台詞の形態素を学習し、予測モデルを作成します。その後に未分類の形態素のデータセットを与えた時にどれだけ人物のラベル付けが正しく行われたかを評価します。予測モデルの対象となる人物は鹿目まどか/暁美ほむら/美樹さやか/キュゥべえ/佐倉杏子/巴マミの合計6名です。機械学習にはSVMを利用します。先に実験の結果をお伝えしておくと、台詞の形態素ベクトルでは十分なマルチラベリングができていません。それでもこの記事が気になる方は読み進めてください。処理手順の詳

    Support Vector Machinesを用いた「魔法少女まどか☆マギカ」人物予測モデル - Y's note
  • svm数式を一切使用しないSVMの話 間違っていたらごめんね!! - お前の血は何色だ!! 4

    前に書いていた奴をまとめて prezi にしてみた。 http://d.hatena.ne.jp/rti7743/20100418/1271603136 svm数式を一切使用しないSVMの話 on Prezi

    svm数式を一切使用しないSVMの話 間違っていたらごめんね!! - お前の血は何色だ!! 4
  • ソフトマージンSVM - 人工知能に関する断創録

    前回(2010/5/2)のハードマージンSVMでは、データに重なりがある場合、下のようにちゃんと分類境界を求められませんでした。今回は、重なりのあるクラス分布に対応できるように拡張してみます。このようなSVMはハードマージンSVMに対してソフトマージンSVMと呼ばれます。別名としてC-SVMとも呼ばれるようです。 PRMLの7.1.1にあるように、データの誤分類を許すようにSVMを修正します。ハードマージンSVMでは、データ点がマージン内(-1 < y < 1)に絶対に入らないことを前提にしていましたが、ソフトマージンSVMでは「入ってしまったものは仕方ない、だがペナルティを与える!」と少し条件を緩めます。 まず、スラック変数ζ(ゼータ)をデータごとに導入します。スラック変数は、データが正しく分類されかつマージン境界上または外側にある場合は0、正しく分類されているがマージン内に侵入してしま

    ソフトマージンSVM - 人工知能に関する断創録
  • Java version of LIBLINEARを使ってみる | mwSoft

    導入 ダウンロードは公式サイトから。 jar1個で動き、依存ライブラリはなし。Mavenのセントラルにも置いてある。jarファイルは51KBと超軽量。BSDライセンス。 とても使い勝手が良さそう。 JavaDocはこちら。 train LIBLINEARはtrainで学習して、predictで結果予測を出力する。 とりあえずtrainしてモデルを出力してみる。ファイルはC++版を落とした時に付いてくるサンプル、heart_scaleを利用。 heart_scaleは下記のような行が記述された270行のファイル。1〜13までの要素に対してそれぞれ値が入っており、最初の列に+1/-1という評価が入れられている。これを使って学習することで、別の1〜13までの要素を持った値に対して、+1/-1を判別できるようになる。 +1 1:0.708333 2:1 3:1 4:-0.320755 5:-0.1

    labga
    labga 2013/03/15
  • SVMツールと関連する論文まとめ - EchizenBlog-Zwei

    最近SVM(Support Vector Machine)周りの復習をしているので有名どころのツールと、それに関連する論文をまとめた。完全に個人用メモなので抜けがあるかも。あくまで参考程度に。 ツールは色々あるけれど使うのが目的なら定番のsvmlightやlibsvmがいい気がする。最近だとliblinearが流行っている。SVMといえばカーネル関数とマージン最大化だけれど、最近ではカーネルは線形でいいやという流れになってきている?個人的にはpegasosがわかり易い線形カーネル+オンライン学習になっていて自分で作って遊ぶには良いと思っている。またsvmsgdは"straightforward stochastic gradient descent"と言っているものの非常に高性能で、それを実現するための様々な工夫が施されていて実装を学ぶ上で大変参考になる。ここには挙げていないけれど、線形カ

    SVMツールと関連する論文まとめ - EchizenBlog-Zwei
  • 非線形サポートベクターマシン - きしだのHatena

    とりあえず最適化の問題は置いておいて、ここを参考に非線形分離できるようにしてみました。 http://www.neuro.sfc.keio.ac.jp/~masato/study/SVM/SVM_3_1.htm さぁ,これで君も非線形SVMのコーディングができちゃうのだ.素晴らしき哉. ほんとにできた。 うん、ぼくにも非線形SVMのコーディングができちゃいましたよ! すばらしきかな SVMも基は線形分離なので、非線形分離に対応するにはパーセプトロンでやったようにデータの次元を増やしてそこで線形分離します。 で、SVMがすごいのはそこでの計算をごにょごにょして、データの次元を実際には増やさずに高次元で計算したことにしてしまうのです。 SVMでは全データ同士の内積の計算をしていたのですが、その代わりにカーネル関数と呼ばれる関数を使います。カーネル関数には、高次元で内積を計算したことになるよう

    非線形サポートベクターマシン - きしだのHatena
  • ルールベースjuliusの誤認識対策にSVMを利用してみよう - お前の血は何色だ!! 4

    前回やったことの続きです。 ルールベースの音声認識をjuliusでやったときに過剰にマッチしまくる問題への対策です。 前回、juliusのクセを観察し、独自のスコアリングをやりました。 多少は誤認識に強くなったのですが、それでも人と人が会話や議論するような短文のやり取りにさらされると、やっぱり誤認識してしまいます。 SVM もう、これは単純なパラメータの閾値では無理です。 ある閾値がそれを超えたら捨てるなどの単純な話ではないのです。 複数のパラメータが複雑に絡み合った世界です。 それをニンゲンの手で観察し、推論していては時間が膨大にかかってしまいます。 人間でやると大変なことは、機械にやらせましょう。 と、いうわけで、機械学習です。 今回は、機会学習の中からSVMを利用します。 SVMは精度もさることながら、学習速度はやや問題があるものの、判別は高速ですし、何よりライブラリが比較的揃ってお

    ルールベースjuliusの誤認識対策にSVMを利用してみよう - お前の血は何色だ!! 4
  • 「Google X Labs」、コンピュータによる人間の脳シミュレーションで大きな成果

    秘密主義の「Google X Labs」で働くGoogleの科学者らは、コンピュータを使って人間の脳をシミュレートすることに関して、大幅な進歩を遂げた。 自動運転車や拡張現実メガネの発明で最もよく知られる同研究所は、1万6000個のコンピュータプロセッサを接続して機械学習用のニューラルネットワークを作り出し、インターネットを徘徊させた。その過程で、同ネットワークはを認識する能力を自ら身につけた。 インターネット上でを見つける行為はそれほど困難なものに思えないが、The New York Times(NYT)の記事によると、同ネットワークの性能は研究者らの予想を上回るものであり、2万個のアイテムリストから物体を識別するときの精度が2倍に向上したという。 を見つけるために、同チームは100億件以上のYouTube動画から無作為に選択したサムネイル画像を同ネットワークに与えた。その結果は、

    「Google X Labs」、コンピュータによる人間の脳シミュレーションで大きな成果
  • ベイズと認知モデルと教師なし学習

    Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino

    ベイズと認知モデルと教師なし学習
  • 大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日語コーパスの情報については以下のエントリをご覧ください。NLP関係のリソースまとめ - nokunoの日記大規模データのエントリが伸びており、この問題に関心のある人の多さが伺えますね。NLP屋としてはやはり、大規模データの中でもテキストデータ(コーパス)に興味のあるところです。 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記 タグ付きコーパス(ツリーバンク)Penn Tree bankWSJ C

  • https://nlp.ist.i.kyoto-u.ac.jp/member/kawahara/paper/NLP2002-1.pdf

  • 5ちゃんねる error 3001

  • SVMの双対問題について - take a keen edge

    SVMの復習してるのでメモ。 双対問題の導出で、だいたいどの参考書やウェブ上の資料見ても「ラグランジュの未定乗数法使えばいいよ!」というとこまでは書いてあるが、 wとbを消してラグランジュ乗数αのみで表したラグランジュ関数(Lagrangian)の最大化がなぜ双対問題になるのか、 よくわからなかったのでまとめました。 私が以前学習したときも、ラグランジュ関数の導出だけで「すげーw」と思考停止していた。 【ラグランジュ関数】 以下の非線形計画問題を考える。 この問題のラグランジュ関数は次のように定義される。 【元関数とラグランジュ関数】 ラグランジュ関数に対し、と固定したとき なる最適化問題を考える。 となる が存在すれば ととることで となる。 一方全ての に対して であれば、 のとき最適値 を得る。 このようにこの問題の最適値はに依存するのでこれをとおくと と表せ、のに関する最小値は初め

    SVMの双対問題について - take a keen edge
  • SVMについて

    SVMについて自分なりにまとめて,授業でプレゼンしたもの.時間的に間に合わなかったりして内容が不完全だったりするけども,読めば線形SVMの実装ぐらいはできるかも.独学なので間違いがある可能性も.Read less

    SVMについて
  • http://web.sfc.keio.ac.jp/~naoe/security/documents/naoe/Support_Vector_Machine_ver2.pdf

  • 双対問題<線形計画法(LP)<オペレーションズ・リサーチ<Web教材<木暮

    学習のポイント さきにシャドウ・プライスの概念を学習しました。その概念は双対問題へと発展します。 キーワード 線形計画法,双対問題,シャドウ・プライス 双対問題の概念 次のような問題が与えられていたとします。 目的関数 v1x1+v2x2+・・・+vnxn → 最大 制約条件 a11x1+a12x2+・・・+a1nxn ≦ b1 a21x1+a22x2+・・・+a2nxn ≦ b2 ・・・・・・・・・・・ am1x1+am2x2+・・・+amnxn ≦ bm x1,x1,・・・,xn ≧ 0 この問題を、m個の変数u1,u1,・・・,um を考えることにりり、次のように変形します。 ・制約式の右辺 b を、目的関数の係数にする。 ・目的関数の係数 v を、制約式の右辺にする。 ・制約式の不等号の向きを反対にする。 ・制約式の係数 aij の行と列をとりかえて、 aji を係数とする。 ・最

    labga
    labga 2013/03/15