タグ

あとで読むとnlpに関するyu4uのブックマーク (4)

  • 第5回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記

    というわけでようやく第5回を開催しました!!第5回 自然言語処理勉強会 #TokyoNLP : ATND n-gramを小さくする話を調べてみた by @machyさんCompressed ngram View more presentations from Keigo Machinaga N-gramとは 今日の題材はn-gramインデックスではなくn-gram確率(言語モデル)の話 応用:音声認識、手書き文字認識、スペル訂正、かな漢字変換、機械翻訳 単語n-gramを題材とする P(晴れ | 天気 は) = 0.24 P(きっと | 天気 は) = 0.03 n-gramを小さくしたい クライアサイドで動作するアプリケーションのためとか サーバサイドでもオンメモリになるとうれしい 注目するのはメモリ使用量:ファイルサイズではない まずはデータを見てみます 大規模なn-gramを自分で用

  • Latent Dirichlet Allocations の Python 実装 - 木曜不足

    LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。 「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ?」という人のほうが多そうw。 各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple音楽apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。 結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」

    Latent Dirichlet Allocations の Python 実装 - 木曜不足
  • EMNLP 2010 の論文紹介 / 自然言語処理勉強会@東京 #3 - 木曜不足

    この記事は 第3回 自然言語処理勉強会@東京 での発表資料です。 EMNLP 2010 (The 2010 Conference on Empirical Methods on Natural Language Processing) の論文を4+5紹介しています。質より数で勝負。 論文を広く浅く読むススメ(仮) 「たまたま手近にあった方法論」に固執する可能性 by 持橋さん (IBIS 2010 のオープニングセッションにて) 例)関係ない、関心ない、難しくてわかるわけないから(読んでも|聞いても)ムダ 例)読めそうな、わかりそうな論文だけ読む 例)とりあえずナイーブベイズ、その枠内でどこまでも泥臭く 論文を手当たり次第に、広く浅く読んじゃおう 1あたり1〜2時間 目安は「twitter で2,3回つぶやけるくらい」(ぇ もちろんちゃんと読む論文はちゃんと読むんだけどね でも、まだ

    EMNLP 2010 の論文紹介 / 自然言語処理勉強会@東京 #3 - 木曜不足
  • 「Web本文抽出 using CRF」の学習用データの作り方 - 木曜不足

    第2回自然言語処理勉強会@東京が 9/25 に行われます。 前回よりキャパの大きい会場&週末に参加募集が始まったばかりですが、早くもほぼ定員。 自然言語処理に興味のある人はぜひ。でも、計画的なドタキャンは運営の方にご迷惑がかかるのでやめてね。 今度の第2回でも出しゃばって発表させてもらう予定だが、第1回も「Web文抽出 using CRF」という話をさせてもらった。 CRF(Conditional Randam Fields) を Web ページからの文抽出に用いるという手法の提案という内容で、実際に動作する Python スクリプトもあわせて公開している。 資料: http://www.slideshare.net/shuyo/web-using-crf 実装: http://github.com/shuyo/iir/blob/master/sequence/crf.py http:

    「Web本文抽出 using CRF」の学習用データの作り方 - 木曜不足
  • 1