タグ

2010年2月17日のブックマーク (2件)

  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • Phactory: MeCabにユーザ辞書を追加する方法

    MeCabの辞書登録方法には、ipadicなどのシステム辞書を一気に更新してしまう方法と ユーザ辞書を追加で登録する方法があります。/usr/local/etc/mecabrcの編集権限が あるならば、いつでも追加登録する辞書を切り替えられる点で後者の方が楽でしょう。 辞書の作成方法については、家の 解説サイトを見てください。ここでは、以下の例(hoge.csv)を追加用ファイルとして用います。 【hoge.csv】 AOC,-1,-1,3049,名詞,固有名詞,一般,*,*,*,AOC,AOC,AOC AOCホールディングス,-1,-1,3013,名詞,固有名詞,一般,*,*,*,AOCホールディングス,AOCホールディングス,AOCホールディングス AOCワインの一覧,-1,-1,3016,名詞,固有名詞,一般,*,*,*,AOCワインの一覧,AOCワインの一覧,AOCワインの