タグ

ブックマーク / www.mwsoft.jp (3)

  • フリーのIME・ATOKユーザ辞書リンク集 | mwSoft

    件数が豊富な辞書 モモの医学辞書 http://www.vector.co.jp/vpack/browse/person/an047722.html 医学系の用語を中心に、62万語。44万語の方はエディタで閲覧可能。 ニコニコ大百科IME辞書 http://tkido.com/blog/1019.html 6万語以上。スクリプトで生成。品詞は全て固有一般。 書き屋のための変換辞書 for ATOK http://homepage3.nifty.com/t-weekly/download.html ATOK辞書用の情報ですが、テキストファイルでも配布しています。1万語以上の情報が品詞や意味付きでまとめられています。 同義語辞書 http://www.vector.co.jp/soft/data/writing/se434756.html 4万語を超える単語に対して、どの単語とどの単語が同義語

    TMTL
    TMTL 2009/11/26
  • 日本テレビ東京で学ぶMeCabのコスト計算 | mwSoft

    今回はこの言葉の解析をMeCab+NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。 とりあえず実行してみる さっそくMeCabに「日テレビ東京」を解析してもらいましょう。 $ echo 日テレビ東京 | mecab 日 名詞,固有名詞,地域,国,*,*,日,ニッポン,ニッポン,, テレビ東京 名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日テレビよりもテレビ東京が優先されたようです。 ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ 名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京 名詞,

    TMTL
    TMTL 2009/10/21
  • MeCabのコマンドライン引数一覧とその実行例 | mwSoft

    -r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

  • 1