タグ

2011年7月13日のブックマーク (2件)

  • ノンパラメトリックベイズ言語モデルによる コーパス内トピック抽出 2010年6月22日 知識工学部 阿部裕介 CLML-HDP-LDAパッケージを用いたコーパス分析例 概要 1. トピックとは? 2. ベイズ統

    ノンパラメトリックベイズ言語モデルによる コーパス内トピック抽出 2010年6月22日 知識工学部 阿部裕介 CLML-HDP-LDAパッケージを用いたコーパス分析例 概要 1. トピックとは? 2. ベイズ統計言語モデル 3. コーパスからのトピック抽出例 4. 問題点  トピックとは? 文書集合(コーパス)の単語出現頻度は 時期・分野・地域…etcの影響を受けて変動する (例)円高…経済記事では出現頻度が高いが       芸能記事では少ない    …1月の新聞記事では出現頻度が高いが      8月の記事では少ない  トピックとは? (2) トピック = 単語出現頻度を変動させる       (潜在的な)要因 問題:コーパスのみが与えられている状況で、各文書の単 語出現頻度から、そのコーパスに潜在しているトピックに したがって、コーパス内の各単語を分類・クラスタリング し、その結

    incep
    incep 2011/07/13
    コーパス内トピック抽出[nlp][corpus]
  • MeCab: オリジナル辞書/コーパスからのパラメータ推定

    $Id: learn.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れ データフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備 設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備 学習用バイナリ辞書の作成 CRF パラメータの学習 配布用辞書の作成 解析用バイナリ辞書の作成 評価 それぞれ順に説明

    incep
    incep 2011/07/13