『日本語入力を支える技術 ~変わり続けるコンピュータと言葉の世界』(asin:4774149934)が発売された。PFI(株式会社Preferred Infrastructure)のなかの人が書いた本だ。 日本語入力を支える技術という本を書きました http://d.hatena.ne.jp/tkng/20120203/1328248554 以下、どうでもいいことをつらつらと。 最近、ソーシャルゲーム界隈が賑わっているのでIT系の優秀な人材がそっちに大量に流れてしまっていて、IT業界自体の空洞化が起きようとしていて本当に嘆かわしい限りである。私は自然言語処理こそが今世紀最後の錬金術だと思っているのだが、この分野はなかなか大きな進歩がないのが実状だ。 例えば、2chのまとめサイトが収益を生み出すのだから、機械によって自動的にどこかの記事のまとめ(要約etc..)を生成できれば、これが自動的に
ここから何回かに分けて、ウィキペディアを運営するウィキメディア財団で3ヶ月インターン1した話を書いていきます。インターンの内容についてはすでに書いているということもあって、ここでは主に応募、選考、開始準備まわりで何をやったかを書こうと思います。 ウィキメディア財団 (Wikimedia Foundation; 略称WMF) はウィキペディアを運営している組織です。技術開発、運用、法務などすべて合わせて100名未満の非営利組織です。2011年のこれを書いている時点で唯一のオフィスはアメリカ合衆国カリフォルニア州サンフランシスコにあります2。 ウィキメディア財団の仕事は、サーバー群の管理、法務、募金活動など、ウィキペディアとその他のウィキメディアプロジェクトの裏方です。ときどき混同されますが、サイト上のコンテンツの更新や管理はWMF職員ではなく、すべてボランティアがやっています。ウィキペディア
今回はこの言葉の解析をMeCab+NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。 とりあえず実行してみる さっそくMeCabに「日本テレビ東京」を解析してもらいましょう。 $ echo 日本テレビ東京 | mecab 日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン,, テレビ東京 名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日本 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日本テレビよりもテレビ東京が優先されたようです。 ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ 名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京 名詞,
言語処理のための機械学習入門という本が出版される、という話はtwitterで知っていたのだが、8月ぐらいに出るのだろうとばかり思っていたら、なんかもう発売されているらしい。Amazonでは早速売り切れていたので、某大学生協の書籍部まで行って購入してきた。おかげで、この週末は280円で過ごすハメになってしまった。 まだざっと眺めただけだが、 ラベルを人手でつけるのに隠れマルコフモデルと言うのは本来はちょっとおかしいんだけどNLPの分野だとそう表現する事が多いよ 対数線形モデルと最大エントロピーモデルは同じものだよ 出力変数の間に依存関係がなければCRFではなく対数線形モデルとか最大エントロピーモデルと表現するべきだよ といった、これまでの教科書にはあまり載っていなかったような事が載っているのはとても良いと感じた。こういった情報は、これまではどこかの大学の研究室で学ぶか、もしくはウェブ上の資料
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く