mecabに関するEulerDijkstraのブックマーク (2)

  • ウノウラボ Unoh Labs: mecabのユーザ辞書を追加した時にはまったメモ

    こんにちは satoです。mecabのユーザ辞書を追加したのですが,いろいろはまったので誰かがはまった時のためにメモっておきます。 1)品詞IDの取り方 2)ユーザ辞書の追加方法 3)禁止語句とか独自の要素を付けたい csvファイルの最後に追加すればOK 4)context_id.cpp(88) [it != left_.end()] cannot find LEFT-... ってエラーが出る left-id right-id の文字コードが csvファイルの文字コードと違うのが原因 nkf --utf8とかで文字コードをそろえる 5)CHECK_CLOSE_FALSE(sysdic->isCompatible(*d)) sys.dic と ユーザ辞書の文字コードが違うと出るエラー utf8とUTF8は違うと判定されるのでutf-8と書く 6)追加した辞書に品詞IDが付かない or 65

  • fukushimuのメモ帳 [mecab] mecab辞書にwikipediaのタイトルリストを追加 [wikipedia][はてなキーワード]

    mecabにwikipediaのタイトルの単語を追加します。 ググると、既に様々な人がされているので、参考にさせて頂きました。また、家のサイトで詳しく説明されています。 csvファイルの作成にperlを使いました。 以下が作業の流れです。 1)wikipediaのデータをダウンロード 2)ダウンロードしたデータからユーザ辞書のCSVファイルを作成 3)CSVファイルを辞書ファイル(.dic)へ変換 wikipediaのタイトルを辞書に追加すると $ mecab 千と千尋の神隠し 千    名詞,数,*,*,*,*,千,セン,セン と    助詞,格助詞,引用,*,*,*,と,ト,ト 千尋    名詞,一般,*,*,*,*,千尋,チヒロ,チヒロ の    助詞,連体化,*,*,*,*,の,ノ,ノ 神隠し    名詞,一般,*,*,*,*,神隠し,カミガクシ,カミガクシ EOS これが $

  • 1