Kshi_Kshiのブックマーク - はてなブックマーク

極大部分文字列の味見 / 自然言語処理勉強会＠東京 #3 - 木曜不足

この記事は第３回自然言語処理勉強会＠東京のおまけ資料です。 [岡野原+ 2008] 全ての部分文字列を考慮した文書分類 http://ci.nii.ac.jp/naid/110006980330 n-gram と異なり、任意長の部分文字列を素性の候補としたいただしそのままでは素性数が文章長の二乗のオーダー素性の候補となる「極大部分文字列」を suffix array/lcp/WDT から線形時間で求める２回以上現れる任意の部分文字列を素性とするのと同等一般に、極大部分文字列は全ての部分文字列よりはるかに少ない(trigram〜fivegram ぐらい) grafting/L1 正則化付きロジスティック回帰により、有効な素性(重みが非ゼロ)を効率的に学習極大部分文字列例) abracadabra "bra" は "abra" の部分文字列としてしか現れない　→　"bra"

Kshi_Kshi 2012/04/03

極大部分文字列

NLP
学習

リンク

極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足

来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。中谷秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/misc/nlp2012_nakatani.pdf 【注】言語処理学会の公開規定が「大会での発表後」であったため、一旦公開を取り下げていましたが、発表終了したので再公開しました。 http://www.anlp.jp/rules/repository.html 【／注】第8回 TokyoNLP で発表した「∞-gram を使った短文言語判定」と基本線は同じ。ただしその発表の時にお約束していたとおり、17言語の判定精度で 99.1% を達成している。99% 越えは作り始める前から

Kshi_Kshi 2012/03/21

リンク

最近読んだ論文(半教師CRF、教師有りLDA、TextRank) - 木曜不足

読んだ自然言語処理や機械学習の論文を twitter でちょこっと紹介してみたりしている。さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え２個３個の tweet には分離してしまうあたりが減点。というわけで、はてなダイアリーの twitter 記法で試しにまとめてみたのだが、うーん、決して見やすくはないなあ……。再編集してまで紹介したい論文なら、別途記事を書けばいいし。悩ましい。半教師CRF "Semi-Supervised Conditional Random Fields for Improved Sequence Segmentation and Labeling" (Jiao+, COLING/ACL 2006) http://www.metabolomics.ca/News/publications/Jiao_et_al

Kshi_Kshi 2012/02/01

論文を紹介

リンク

多変量正規分布をギブスサンプリングで - 木曜不足

引き続き「パターン認識と機械学習」(PRML) 11章予習中。 Gibbs サンプリング、これはもう試してみるしか。 syou6162 さんが試してはるの( http://d.hatena.ne.jp/syou6162/20090115/1231965900 )をなぞるだけでもいいんだけど、せっかくだから多次元一般化しよう。 r_mul_norm1 <- function(x, mu, Sig) { idx <- 1:length(mu); for(a in idx) { b <- idx[idx!=a]; # b = [1,D] - a s <- Sig[b,a] %*% solve(Sig[b,b]); # Σ_ab Σ_bb ^ -1 # (PRML 2.81) μ_a|b = μ_a + Σ_ab Σ_bb ^ -1 (x_b - μ_b) mu_a_b <- mu[a] + s

Kshi_Kshi 2011/12/15

ギブスサンプリング

リンク

Latent Dirichlet Allocations の Python 実装 - 木曜不足

LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ？」という人のほうが多そうｗ。各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple と音楽の apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」

Kshi_Kshi 2011/12/15

LDAを実装してみた

リンク

はてなブックマーク

タグ

ブックマーク / shuyo.hatenablog.com (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / shuyo.hatenablog.com (5)

極大部分文字列 の味見 / 自然言語処理勉強会＠東京 #3 - 木曜不足

極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足

最近読んだ論文(半教師CRF、教師有りLDA、TextRank) - 木曜不足

多変量正規分布をギブスサンプリングで - 木曜不足

Latent Dirichlet Allocations の Python 実装 - 木曜不足

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

極大部分文字列の味見 / 自然言語処理勉強会＠東京 #3 - 木曜不足