タグ

mecabに関するlinoleumlのブックマーク (5)

  • MeCab 0.90 における mecabrc ファイルの優先順位: ナマズのブログ

    MeCab 0.90 における mecabrc ファイルの優先順位 1. コマンドラインパラメータ -r, --rcfile で指定した mecabrc ファイル 2. 環境変数 HOME が設定されている場合 ~/.mecabrc ファイル 3. 環境変数 MECABRC で指定した mecabrc ファイル 4. レジストリ HKEY_LOCAL_MACHINE\software\mecab\mecabrc の mecabrc ファイル [Windowsのみ] 5. レジストリ HKEY_CURRENT_USER\software\mecab\mecabrc の mecabrc ファイル [Windowsのみ] 6. DLL と同じディレクトリの mecabrc [Windowsのみ] 7. MECAB_DEFAULT_RC UNIX は /usr/local/etc/mecabrc

  • 楓 software: MeCab (和布蕪) 辞書の構築

    « SQLite | メイン | MeCab の設定ファイル » 2006年02月19日 Web関連の開発日誌:: MeCab (和布蕪) 辞書の構築 Tweet    @jin1016をフォロー Sennaでは MeCab が使われているけど、 MeCab の辞書は約38MBもある。 どうしたものか。 調べてみると、かかしは2MBで茶筅は12MBだった。 そこで、何とかしようととりあえずは MeCab の辞書を再構築することにした。 標準では EUC になっているので、まずはこれを UTF-8 にすることに。 以下は、 mecab-0.90rc9 での話。 初めこのページを参照して辞書の再構築をしていたのだが、どうもうまくいかない。 品詞などが文字化けしていまう。 しばらくして、このページが最新の情報だと気付いた。 が、そうだと気付いても辞書の再構築方法は全然わからず、相変わらず文字化

  • mac portでインストールしたMeCabはマルチスレッドでうまく動かない - yasuhisa's blog

    雑誌のファイルから機械学習に投げるための素性作成C++のプログラムを書いているが、時間がかかりまくるのでマルチスレッドにしている。が、ローカル環境ではうまくいくのに、リモートではうまくいかないという困った事態に遭遇。 gdb使って死んだところでwhereとかしてみるとMeCab::Viterbi::connectNormalというところで死んでいた。なんでかな思いながら調べていると、リモートでは $ mecab -v mecab of 0.96 $ which mecab /opt/local/bin/mecab で、ローカルでは $ mecab -v mecab of 0.98pre2 $ which mecab /usr/local/bin/mecab となっていた。そういえばリモートはportで入れたMeCabで、ローカルはソースから入れたものだった。 マルチスレッド環境で辞書を開く

    mac portでインストールしたMeCabはマルチスレッドでうまく動かない - yasuhisa's blog
  • Rubyで形態素解析してみた - unnecessary words

    昨日の晩あたりから、形態素解析したい気分だったのでやってみました。 形態素解析というのは以下のようなもの。 対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。 形態素解析 - Wikipedia 圧縮新聞にも使われているそうです。 「圧縮新聞」を作った - phaの日記 今回は、MeCab(和布蕪)という形態素解析エンジン利用させて頂きました。 Ubuntu環境で実験しましたが、大抵同じような作業で動くと思います。文字コードの指定のみ適時読み替えてください。 ファイルの取得 MeCab体(mecab-0.97.tar.gz)、辞書ファイル(mecab-ipadic-2.7.0-20070801.

    Rubyで形態素解析してみた - unnecessary words
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

  • 1