タグ

ブックマーク / chasen.org/~daiti-m (3)

  • mots quotidiens.

    アラビア語形態素解析デキターー!!!! Xが単語境界です。 setenv LANG ar_AE.utf8 で行けました。 嬉しい。 教師データなんてものは一切使っていません(Arabic gigawordの生テキストのみ) ので注意。完全ベイズです。 語彙を見ると, それなりに高頻度なものが出ている感じです。 問題はこれを読めないことです。(T_T) 内部で先月Talkをした時に, 渡辺さん が, C/C++でこういう文字タイプの判別を行うにはIBMの ICU を使うといいと教えてくれた。 ICUはUnicodeを扱うフリーソフトで, 基的にUTF-16を扱うもののようなので, 内部表現がUTF-16になるglibcでは, そのまま wchar_t や wstring の要素を渡すこと ができるようです。 ICUには正規表現やcharacter iteratorなど様々な機能があるようで

  • 教師なし形態素解析 - mots quotidiens.

    LaTeXのメモ。 LaTeXのtabularを見やすくするために, セルに色をつけたい時は colortblパッケージ を使えばよいらしい。 \usepackage{colortbl}してから, \cellcolor[gray]{0.7} 内容 & .. とか \cellcolor[rgb]{0.2,0.7,0.9} 内容 & .. のようにすればOK。 ただし, こうすると\clineを使って罫線を部分的に引いている時に, 罫線が色で上書きされてしまう(!)。 これは難しいですね的議論があったが, さらに調べるとCTANの colortblのページ の文書に対処法が書いてあって, そもそも \cline を使わずに, hhlineパッケージ を使えとのこと。 \usepackage{hhline}しておいてから, \cline{2-4}(たとえば) の代わりに, \hhline{~--

  • mots quotidiens.

    下で書かなかった諸々のこと。 教師なし単語分割は最初, 辻井研の松原君が(MDLで)やっていたりするので僕がやることもないかな.. と思っていたのですが, やはり計算言語学上重要なのできちんとやるべきだと思い, *1 やってみたところ非常に複雑で, これまで特にベイズでない人がちょっとやってできるというものではないなあ.. というのが感想でした。 理論的には7月くらいで見えていましたが, とにかく実装が複雑で大変でした。 論文には複雑すぎるので書いていないですが, 特にトライグラムの Forward-Backward と viterbi が大変で, トライグラムの場合の前向き変数α[t][k][j]の計算には, For t = 1 .. N For k = 1 .. max(1,t-L) まず部分文字列(=単語) c_{t-k+1} .. c_t をスタックにプッシュ For j = 1

  • 1