[B! NLP][TokyoNLP] sleepy_yoshiのブックマーク

sleepy_yoshi id:sleepy_yoshi

NLPとTokyoNLPに関するsleepy_yoshiのブックマーク (2)

極大部分文字列の味見 / 自然言語処理勉強会＠東京 #3 - 木曜不足
この記事は第３回自然言語処理勉強会＠東京のおまけ資料です。 [岡野原+ 2008] 全ての部分文字列を考慮した文書分類 http://ci.nii.ac.jp/naid/110006980330 n-gram と異なり、任意長の部分文字列を素性の候補としたいただしそのままでは素性数が文章長の二乗のオーダー素性の候補となる「極大部分文字列」を suffix array/lcp/WDT から線形時間で求める２回以上現れる任意の部分文字列を素性とするのと同等一般に、極大部分文字列は全ての部分文字列よりはるかに少ない(trigram〜fivegram ぐらい) grafting/L1 正則化付きロジスティック回帰により、有効な素性(重みが非ゼロ)を効率的に学習極大部分文字列例) abracadabra "bra" は "abra" の部分文字列としてしか現れない　→　"bra"
sleepy_yoshi 2010/11/23
NLP

TokyoNLP
リンク
EMNLP 2010 の論文紹介 / 自然言語処理勉強会＠東京 #3 - 木曜不足
この記事は第３回自然言語処理勉強会＠東京での発表資料です。 EM NLP 2010 (The 2010 Conference on Empirical Methods on Natural Language Processing) の論文を４本＋５本紹介しています。質より数で勝負。論文を広く浅く読むススメ(仮) 「たまたま手近にあった方法論」に固執する可能性 by 持橋さん (IBIS 2010 のオープニングセッションにて) 例)関係ない、関心ない、難しくてわかるわけないから(読んでも|聞いても)ムダ例)読めそうな、わかりそうな論文だけ読む例)とりあえずナイーブベイズ、その枠内でどこまでも泥臭く論文を手当たり次第に、広く浅く読んじゃおう１本あたり１〜２時間目安は「twitter で２，３回つぶやけるくらい」(ぇもちろんちゃんと読む論文はちゃんと読むんだけどねでも、まだ
sleepy_yoshi 2010/11/23
NLP

TokyoNLP
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx