タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

辞書に関するtomiyanxのブックマーク (5)

  • MeCab: 単語の追加方法

    概要 辞書への単語追加には, 二つの方法があります. システム辞書への追加 ユーザ辞書への追加 システム辞書への追加 辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接 システム辞書を変更するのがよいでしょう. mecab-ipadic があるディレクトリに移動 foo.csv というファイルを作成 (拡張子が .csv なら何でも可) foo.csv に単語を追加 辞書の再コンパイル + インストール % /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t euc-jp % su # make install -f charset: CSVの文字コード -t charset: バイナリ辞書の文字コード 例: utf-8の辞書を作成する例 % /usr/local/libexec/mecab/mecab-dict-

  • MeCab: オリジナル辞書/コーパスからのパラメータ推定

    概要 学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れ データフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備 設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備 学習用バイナリ辞書の作成 CRF パラメータの学習 配布用辞書の作成 解析用バイナリ辞書の作成 評価 再学習 それぞれ順に説明していきます. Seed辞書の準備 MeCabの辞書は CSV で記述されます. Seed 辞書と配

    MeCab: オリジナル辞書/コーパスからのパラメータ推定
  • Mecabに人名辞書を追加 - Qiita

    Mecabに新しい単語を追加したくなることは多々あるはず。 今回は人名の例で解説する。 人名追加に必要となる知識 重要なリンク Mecab公式「単語の追加方法」 http://mecab.googlecode.com/svn/trunk/mecab/doc/dic.html 人名辞書一覧 http://www.mwsoft.jp/programming/munou/ime_dictionary_link.html#person 辞書の追加先 まず、システム辞書として追加するか、ユーザー辞書として追加するかが問題となる。 人名辞書の項目は大抵万を超えるので、解析速度のことを考え、システム辞書に追加するのが妥当と考えられる。 辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接 システム辞書を変更するのがよいでしょう. mecab-ipadic があるディレクトリに移動 foo.

    Mecabに人名辞書を追加 - Qiita
  • mecabの辞書に新しい単語を登録する方法

    mecabの辞書に新しい単語を登録する方法のメモ。 mecabのインストール mecabをインストールすると、mecabコマンドが使えるようになります。 wgetするファイルは2013年4月時点で最新です。 yum install -y gcc-c++ cd /usr/local/src wget https://mecab.googlecode.com/files/mecab-0.996.tar.gz tar zxfv mecab-0.996.tar.gz cd mecab-0.996/ ./configure make make check make install mecab -v

  • MeCabの辞書をカスタマイズする | mwSoft

    概要 MeCab0.994で再学習機能が入ったので、その辺りも含めてMeCabの辞書カスタマイズ方法を洗ってみる。 今回取り扱うのは、CSV形式で新しい単語の情報を記述して辞書を生成(mecab-dict-index)する方法と、文章の解析結果を用意してそれを利用して学習(mecab-cost-train)する方法。 Linuxで実行。Windowsは知らない。 単語追加用のCSVファイルを作成する まずはCSVファイルを手書きして、MeCabの辞書に新しい単語を追加してみる。 やり方は公式サイトに載っている。 今回は例として「アメリカの大統領の名前くらい登録しておきたいよね」ということでバラクとオバマという2つの固有名詞を追加してみる。両単語はIPA辞書では未知語になっている。 $ echo "バラク・オバマ" | mecab -U"%M\t%H\t未知語\n" バラク 名詞,一般,*,

  • 1