タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

UniDicに関するkaeru_drvのブックマーク (3)

  • MeCabで未知語を追加する方法 - CreateField

    未知語の抽出 UniDicの場合 手持ちの文書のうち、システム辞書で未知語として判定されるものを抽出する。 未知語が抽出されやすいようにdicrcに未知語の出力のみが出力されるwakatimitiの出力形式を追加する。 % vi dicrc output-format-type = wakatimiti node-format-wakatimiti = \0 unk-format-wakatimiti = %m\n eos-format-wakatimiti = Note: UniDicでは、なぜか-F,-U,-Eのオプションがきかないため、dicrcで設定する。 未知語がまとまって分割されて抽出されるようにchar.defを一時的に修正する。 % cp char.def char.def_bk % vi char.def DEFAULT 0 1 0 # DEFAULT is a mand

  • MeCab で UniDic 辞書を使ってみる / 桃缶食べたい。

    MeCab で UniDic 辞書を使ってみる MeCab で使える形態素解析用の辞書は、IPA 辞書の他にもいくつか公開されています。そのひとつであるUniDic は、IPA 辞書よりも個々の単語を詳細に分類したもので、分割した形態素が文中で果たす役割をより精密に検出することができます。UniDic はメンテナンスが頻繁に行われているようで、最新版は 1 ヶ月ほど前の 2013/3/14 にリリースされた 2.1.2 になります。ライセンス形態は GPL、LGPL、BSD License のトリプルライセンスとなっていて、その点でも、エンジニアにとっても採用しやすい辞書となっています。 今回はこの UniDic を実際にビルドし、MeCab から使ってみることと、辞書の再学習までを試してみました。 MeCab で UniDic を使うUniDic はバイナリ辞書も配布されていますが、ここ

  • MeCab辞書を全文検索エンジンGroonga用に調整する方法 - CreateField

    システム辞書の選定 MeCab辞書の種類 MeCab用のシステム辞書は、以下のものが存在する。 IPAdic http://code.google.com/p/mecab/downloads/list Jumandic http://code.google.com/p/mecab/downloads/list UniDic http://sourceforge.jp/projects/unidic/ NAIST-jdic http://sourceforge.jp/projects/naist-jdic/ UniDic 「短単位」という揺れが少ない斉一な単位を見出し語に採用している 語彙素・語形・書字形・発音形の階層構造を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる 話し言葉のテキストの解析に対応しているほか、アクセントや音変化の情報を付与することができ、音声処

  • 1