タグ

ブックマーク / www-tsujii.is.s.u-tokyo.ac.jp/~hillbig (1)

  • 大規模データを基にした 自然言語

    大規模データを基にした 自然言語叀 2009/3/13 SIGFPAI @学習院大 自然言語叀 岡野原大輔 東京大学情報 工学 研 科 コンピュータ科学専攻 辻井研 hillbig@is.s.u-tokyo.ac.jp 背景 • 匏用可能な言語資源の急 な拡大 – ブログ, 掲示板, 商品情報, レビュー – Wikipedia, Google N-gram Corpus ( 1010 語) – 従来の言語資源 Penn treebank ( 106語)– 従来の言語資源 Penn treebank ( 10 語) • より多くのデータ⇒ も向上 – 統計的機械翻訳 [Brants+, EMNLP 07] • 言語資源の の対数で翻訳 は線形に上昇 – 博卝 有学習による ラベリング [Suzuki+, ACL 09] – 単語の類似 計算 [柴田+, NLP 09] 発表の概要 • 大

    alfaladio
    alfaladio 2009/12/24
    大規模データを基にした自然言語処理
  • 1