タグ

ブックマーク / www.mwsoft.jp (3)

  • 日本テレビ東京で学ぶMeCabのコスト計算 | mwSoft

    今回はこの言葉の解析をMeCab+NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。 とりあえず実行してみる さっそくMeCabに「日テレビ東京」を解析してもらいましょう。 $ echo 日テレビ東京 | mecab 日 名詞,固有名詞,地域,国,*,*,日,ニッポン,ニッポン,, テレビ東京 名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日テレビよりもテレビ東京が優先されたようです。 ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ 名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京 名詞,

  • MeCabのコマンドライン引数一覧とその実行例 | mwSoft

    -r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

  • IPA、NAIST、UniDic、JUMANの辞書実演比較(Mecab)

    以下のフォームに文章を入力して「解析」ボタンを押下すると、チェックした辞書を使用したMeCabの解析結果が表示されます。 実行回数は1つのIPアドレスに付き1日30回に制限させて頂いております。また解析する文字列の長さの上限は512文字です。すいません、レン鯖なので無茶はできんとです。あと、Firefox3.5,Chrome3,IE8で動作を確認しています。古典的ブラウザでは動作しないかもしれません。 MeCab0.98を使用しています。解析を実行した文字列については一切のログを取っていませんので安心してお使いください。 IPA (mecab-ipadic2.7.0-20070801) NAIST (mecab-naist-jdic-0.6.1-20090630) UniDic現代語版 (unidic-mecab-1.3.12) UniDic近代文語版 (UniDic-MLJ-mecab_

  • 1