タグ

mecabに関するhalskのブックマーク (2)

  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

  • [を] 裏で形態素解析器を使い長い文をそのままキーとしてWeb検索する

    裏で形態素解析器を使い長い文をそのままキーとしてWeb検索する 2006-09-17-1 [YahooHacks][NLP] 今回の YahooHacks は、 長い文を検索キーとしてWeb検索をするというハックです。 一年前の検索会議[2005-09-30-3]で紹介しましたが、 今回ゼロから書き直しました。 サンプルコードが長くなってしまってすいません…。 (一時的にデモを置いておきます。そのうち消えます。ご了承下さい。 http://nais.to/~yto/tmp/yahoohacks-samp/hack_sentence.cgi 検索例:SEOの10ステップと...←うろ覚えタイトル ) ■■■長い文をそのまま検索キーとして Web 検索する どこかからコピペしてきた長い文をそのまま Yahoo! で検索しても ヒットしないことが多いです。 そういう場合

  • 1