htktyoのブックマーク - はてなブックマーク

日本語入力を支える技術振り返り、もしくは技術書を書きたい人へ - 射撃しつつ前転改

本を書いてからこっち、年度末で忙しかったり、体調がずっと悪かったりしていますが、そろそろ本気出します。正誤表も大幅にアップデートします。今書いてる。今日は、本を書いてみてどうだったか、ということをふり返る。たぶんこれで本について触れるのは最後かな。宣伝はたまにすると思いますが。 ※思いがけず大量にアクセスがあったから、最後に追記を書いたので、そっちも読んでね！本を書いたきっかけ会社の方でPFIセミナーという勉強会のようなものをやっており、なぜかそれがUStreamでインターネットに中継されているのだが、そこで日本語入力の話をしたら「本書かない？」って話が来た。編集さんとは、その前年に会社に来たWEB+DB Pressの記事執筆依頼で記事を書いた際に知り合ったので、そういう意味では貪欲にチャンスを掴みに行った結果であると言えなくもない。 PFIセミナーがUSTで中継されるようになったの

htktyo 2012/06/11

リンク

言語処理のための機械学習入門を読んだ - 射撃しつつ前転改

言語処理のための機械学習入門という本が出版される、という話はtwitterで知っていたのだが、8月ぐらいに出るのだろうとばかり思っていたら、なんかもう発売されているらしい。Amazonでは早速売り切れていたので、某大学生協の書籍部まで行って購入してきた。おかげで、この週末は280円で過ごすハメになってしまった。まだざっと眺めただけだが、ラベルを人手でつけるのに隠れマルコフモデルと言うのは本来はちょっとおかしいんだけどNLPの分野だとそう表現する事が多いよ対数線形モデルと最大エントロピーモデルは同じものだよ出力変数の間に依存関係がなければCRFではなく対数線形モデルとか最大エントロピーモデルと表現するべきだよといった、これまでの教科書にはあまり載っていなかったような事が載っているのはとても良いと感じた。こういった情報は、これまではどこかの大学の研究室で学ぶか、もしくはウェブ上の資料

htktyo 2010/07/12

リンク

新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改

新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する（たぶん）最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは実装が簡単学習時間が短い性能もそこそこよいという感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

htktyo 2008/12/19

NLP

リンク

しかしSVMも最近は速いらしい - 射撃しつつ前転改

Complement Naive BayesがSVMより速いよーと主張していたので、SVMもなんか最近は速くなってるらしいよ、という事を紹介してみたい。近年はSVMなどの学習を高速に行うという提案が行われており、実装が公開されているものもある。その中の一つにliblinearという機械学習ライブラリがある。ライブラリ名から推測できる通り、liblinearではカーネルを使うことが出来ない。しかし、その分速度が速く、大規模データに適用できるという利点がある。 liblinearを作っているのはlibsvmと同じ研究グループで、Chih-Jen Linがプロジェクトリーダーであるようだ。libsvmはかなり有名なライブラリで、liblinearにはそういった意味で安心感がある。（liblinearの方は公開されてしばらくは割とバグがあったらしいけど。） liblinearにはL1-SVM, L

htktyo 2008/12/17

NLP

リンク

Class N-gramモデルとHMM、もしくはどこが隠れてるねん - 射撃しつつ前転改

Class N-gramモデルというのは、各単語はあるクラスに所属するものとし、クラスの連なりによって次の単語の確率分布を予測する言語モデルである。各単語がどのクラスに所属するかは、コーパスの対数尤度を最大化するように決定される。このモデルはHMMと非常に似ている。HMMとの違いは、HMMでは単語があるクラスへと所属する確率が存在するのに対し、Class N-gramモデルでは単語はあるクラスへと確実に所属するところだ。つまり、クラスAに所属する単語は、クラスBやCには絶対に所属しない。（HMMだと、クラスAへの所属確率0.8, クラスBへの所属確率0.1、みたいになる。）比べてみるとつまり、HMMの方がちょっと柔らかい印象を受ける。今、ちょっと嘘を書いた。もしかするとClass N-gramモデルという言葉で、各単語のクラスへの所属確率をイメージする人もいるかもしれない。ただ、この日

htktyo 2008/04/26

NLP

リンク

はてなブックマーク

タグ

ブックマーク / tkng.hatenablog.com (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / tkng.hatenablog.com (5)

日本語入力を支える技術 振り返り、もしくは技術書を書きたい人へ - 射撃しつつ前転 改

言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改

新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

しかしSVMも最近は速いらしい - 射撃しつつ前転 改

Class N-gramモデルとHMM、もしくはどこが隠れてるねん - 射撃しつつ前転 改

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

日本語入力を支える技術振り返り、もしくは技術書を書きたい人へ - 射撃しつつ前転改

言語処理のための機械学習入門を読んだ - 射撃しつつ前転改

新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改

しかしSVMも最近は速いらしい - 射撃しつつ前転改

Class N-gramモデルとHMM、もしくはどこが隠れてるねん - 射撃しつつ前転改