タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

NLPとTokyoNLPに関するsleepy_yoshiのブックマーク (2)

  • 極大部分文字列 の味見 / 自然言語処理勉強会@東京 #3 - 木曜不足

    この記事は 第3回 自然言語処理勉強会@東京 のおまけ資料です。 [岡野原+ 2008] 全ての部分文字列を考慮した文書分類 http://ci.nii.ac.jp/naid/110006980330 n-gram と異なり、任意長の部分文字列を素性の候補としたい ただしそのままでは素性数が文章長の二乗のオーダー 素性の候補となる「極大部分文字列」を suffix array/lcp/WDT から線形時間で求める 2回以上現れる任意の部分文字列を素性とするのと同等 一般に、極大部分文字列は全ての部分文字列よりはるかに少ない(trigram〜fivegram ぐらい) grafting/L1 正則化付きロジスティック回帰により、有効な素性(重みが非ゼロ)を効率的に学習 極大部分文字列 例) abracadabra "bra" は "abra" の部分文字列としてしか現れない → "bra"

    極大部分文字列 の味見 / 自然言語処理勉強会@東京 #3 - 木曜不足
  • EMNLP 2010 の論文紹介 / 自然言語処理勉強会@東京 #3 - 木曜不足

    この記事は 第3回 自然言語処理勉強会@東京 での発表資料です。 EMNLP 2010 (The 2010 Conference on Empirical Methods on Natural Language Processing) の論文を4+5紹介しています。質より数で勝負。 論文を広く浅く読むススメ(仮) 「たまたま手近にあった方法論」に固執する可能性 by 持橋さん (IBIS 2010 のオープニングセッションにて) 例)関係ない、関心ない、難しくてわかるわけないから(読んでも|聞いても)ムダ 例)読めそうな、わかりそうな論文だけ読む 例)とりあえずナイーブベイズ、その枠内でどこまでも泥臭く 論文を手当たり次第に、広く浅く読んじゃおう 1あたり1〜2時間 目安は「twitter で2,3回つぶやけるくらい」(ぇ もちろんちゃんと読む論文はちゃんと読むんだけどね でも、まだ

    EMNLP 2010 の論文紹介 / 自然言語処理勉強会@東京 #3 - 木曜不足
  • 1