タグ

CRFとmecabに関するni66lingのブックマーク (2)

  • MeCab: オリジナル辞書/コーパスからのパラメータ推定

    概要 学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れ データフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備 設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備 学習用バイナリ辞書の作成 CRF パラメータの学習 配布用辞書の作成 解析用バイナリ辞書の作成 評価 それぞれ順に説明していきます. Seed辞書の準備 MeCabの辞書は CSV で記述されます. Seed 辞書と配布辞書の

  • 形態素解析の過去・現在・未来

    2. ⾃自⼰己紹介 l  海野  裕也  (@unnonouno) l  unno/no/uno l  研究開発部⾨門  リサーチャー l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング l  職歴 l  2008/4~2011/3 ⽇日アイ・ビー・エム(株)東京 基礎研究所 l  2011/4~ 現職 2 3. 今⽇日の発表の⽬目的 l  形態素解析器の中で何が⾏行行われているか l  コスト最⼩小化, HMM, MEMM, CRF etc. , l  JUMAN, Chasen, MeCab, etc. l  ・・・だけだとよくあるので、最新の⼿手法と過 去の⼿手法をまとめる l  現在の問題点に関してもまとめる 3

    形態素解析の過去・現在・未来
  • 1