「かつおたたき」、「りんごジュース」、「ロース肉薄切り」を MeCab + IPA 辞書で形態素解析すると以下のようになります。 % mecab かつおたたき かつ 接続詞,*,*,*,*,*,かつ,カツ,カツ お 接頭詞,名詞接続,*,*,*,*,お,オ,オ たたき 名詞,一般,*,*,*,*,たたき,タタキ,タタキ EOS りんごジュース りん 副詞,助詞類接続,*,*,*,*,りん,リン,リン ご 接頭詞,名詞接続,*,*,*,*,ご,ゴ,ゴ ジュース 名詞,一般,*,*,*,*,ジュース,ジュース,ジュース EOS ロース肉薄切り ロース 名詞,一般,*,*,*,*,ロース,ロース,ロース 肉薄 名詞,サ変接続,*,*,*,*,肉薄,ニクハク,ニクハク 切り 名詞,接尾,一般,*,*,*,切り,ギリ,ギリ EOS 日本人の感覚とはだいぶずれた結果になってしまっていますね!人間であれ
みなさん、和布蕪は好きですか。私は食べたことがありません。 さて、MeCab は優秀な日本語の形態素解析機として有名ですが、みなさんは MeCab をそれ以外の用途で使ったことがありますか。食わず嫌いは感心できませんねぇ。 日本語の形態素解析機としての振る舞いは MeCab のほんの一面に過ぎません。MeCab はいつも読んでる IPAdic が何語の辞書かなんて知りませんし、日本語の文法がハードコートされているわけでもありません。MeCab は、振る舞いの全てを辞書に決められているといっても過言ではないほど、辞書によって様々な「言語」を解析できるようになります。ここでいう「言語」とは、記号の並びの規則、またはその規則に則って並べられた記号列のことだと思ってください。つまり、「辞書」は言語の語彙だけでなく、規則を記述する能力を持っているのです。 MeCab の「辞書」に含まれる情報に軽く触
こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く