t10471のブックマーク - はてなブックマーク

CRF について（可変次数 CRF への前振り） - アスペ日記
最大エントロピーモデルの続き。今回は、CRF（Conditional Random Fields, 条件付き確率場とも）一般*1について。前向き・後ろ向きアルゴリズムについては書かない。また、一般に関連が深いとされる MEMM というものについても、ここでは触れない。 CRF とはどういうものか。一言でいうと、最大エントロピーモデルの考え方を系列ラベリングに応用したもの。ここで、系列ラベリングというタスクについて簡単に説明しておく。たとえば、品詞タグ付けのようなものがある。英語のように単語が分かれている言語で、それぞれの単語に対して「名詞」「動詞」などの品詞タグをつけるというタスク。古典的な "time flies like an arrow"*2 を例にとる。これには複数の解釈があり、その中には時は矢のように過ぎ去る（光陰矢のごとし）時バエは矢を好むのようなもの
t10471 2012/11/15
アルゴリズム

自然言語処理

機械学習
リンク
情報系修士にもわかるダブル配列 - アスペ日記
最近話題の「日本語入力を支える技術」を途中まで読んだ。 3章がものすごく気合いが入っている。 trie（トライ）というデータ構造の2つの実装、「ダブル配列」と「LOUDS」について詳しく説明がされている。ダブル配列については、ぼくは以前論文を読んで勉強しようとしたのだが、その時は難しくてあきらめた覚えがある。しかし、この本の説明を読むことで理解ができた。ありがたい。感銘を受けたので、この本を教材に友達と2人勉強会をした。この2人勉強会というのは、ぼくが復習を兼ねて友達に教えるというのがだいたいのスタイル。しかし、いざやってみるといろいろと難しい。次のようなところでひっかかるようだ。例のサイズが小さく、イメージを喚起するのが難しい。最初の図のノード番号と、最終的なダブル配列上の位置が異なるため、混乱する。単語終端について言及がないので、どのノードが単語を表しているかがわから
t10471 2012/02/20
アルゴリズム

データ構造
リンク
手抜き日中判別 - アスペ日記
Twitter 上で、 id:showyou さんがログデータの日中言語判別をしたいという話をしていたので、それについて。まず前提として、文字だけ見ても日本語と簡体字中国語（繁体字はもっと面倒だけど、ここではいったん棚上げ）を 100％判別することはできない。というのは、簡体字中国語の文章であっても必ずしも簡体字を含むわけではないので。 “真的？”（本当に？） “恭喜恭喜！”（おめでとう！）これらは典型的な例だが、実際はもっと長い簡体字を含まない文章でも実は中国語ということがあり得る。また、「カナがあれば日本語」という簡単な方法もあるが、全部漢字だから中国語というわけでもない。「最低！」「関西電気保安協会」等。文字ベースで判別できないとなると、精度良く判別するならライブラリを使うのが一番。 Language Detection Library for Javaとか。ただ、こ
t10471 2011/02/01
文字コード

日中判別
リンク
1