タグ

ブックマーク / taku910.github.io (2)

  • CaoboCha: Yet Another Japanese Dependency Structure Analyzer

    CaboCha/南瓜: Yet Another Japanese Dependency Structure Analyzer CaboCha/南瓜とは CaboCha は, Support Vector Machines に基づく日語係り受け解析器です。 特徴 Support Vector Machines (SVMs) に基づく, 高性能な係り受け解析器 SVM の分類アルゴリズムの高速化手法である PKE (ACL 2003 にて発表)を適用. IREX の定義による固有表現解析が可能 柔軟な入力形式. 生文はもちろん, 形態素解析済みデータ, 文節区切り済み データ, 部分的に係り関係が付与されたデータからの解析が可能 係り受けの同定に使用する素性をユーザ側で再定義可能 データを用意すれば, ユーザ側で学習を行うことが可能 内部の辞書に, 高速な Trie 構造である Double

  • MeCab: 単語の追加方法

    概要 辞書への単語追加には, 二つの方法があります. システム辞書への追加 ユーザ辞書への追加 システム辞書への追加 辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接 システム辞書を変更するのがよいでしょう. mecab-ipadic があるディレクトリに移動 foo.csv というファイルを作成 (拡張子が .csv なら何でも可) foo.csv に単語を追加 辞書の再コンパイル + インストール % /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t euc-jp % su # make install -f charset: CSVの文字コード -t charset: バイナリ辞書の文字コード 例: utf-8の辞書を作成する例 % /usr/local/libexec/mecab/mecab-dict-i

  • 1