タグ

2012年2月28日のブックマーク (5件)

  • 極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足

    来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。 中谷 秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/misc/nlp2012_nakatani.pdf 【注】 言語処理学会の公開規定が「大会での発表後」であったため、一旦公開を取り下げていましたが、発表終了したので再公開しました。 http://www.anlp.jp/rules/repository.html 【/注】 第8回 TokyoNLP で発表した「∞-gram を使った短文言語判定」と基線は同じ。ただしその発表の時にお約束していたとおり、17言語の判定精度で 99.1% を達成している。99% 越えは作り始める前から

    極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足
  • メトロポリス法による正規分布からのサンプリング - 木曜不足

    TokyoNLP #9 で tkng さんが MCMC で正規分布からサンプリングしてみたけど、1000件ぐらいだとなかなかきれいな釣鐘型にならない、という話をされていた。 途中の系列を捨ててないということだったので、そのせいでは? と思ってちょっと試してみたが、結論としては、そもそも 1000件くらいではきれいなヒストグラムにならないということがわかった。 それは R で「ちゃんとした正規分布からのサンプリング」を使ってヒストグラムを書けばすぐわかる。あえてグラフは載せないので、自分で実行してみてね。 hist(rnorm(1000), breaks=30) これで終わったら芸がないので、「相関を抑えるにはどれくらい捨てればいいか」を確認してみた。 まずはメトロポリス法による正規分布サンプリングのソース。 スライドで一瞬見ただけなので多分いろいろ違っているだろうがまあ大丈夫? #!/us

    メトロポリス法による正規分布からのサンプリング - 木曜不足
  • How To Become A Hacker: Japanese

    なぜこんな文書を書いたか わたしは Jargon Fileの編集者で、またその他似たような有名文書いくつかの著者なので、しばしば熱心なネットワーク初心者から「ウィザード級の大ハッカーになるにはどうやって勉強すればいいの?」といったようなお尋ねメールを頂きます。でもかつて 1996 年に、こんな大事な問題を扱った FAQ や Web 文書 はみあたらないことに気がつきました。というわけで、これを書き始めました。多くのハッカーがいまやこれを決定版と見なしているし、つまり実際に決定版なんだと思います。でも、この問題について自分が唯一無二の権威だと主張するつもりもありません。気にくわなければ、自分なりのヤツをどうぞ。 この文書をオフラインで読んでいるなら、最新版は次のところにあります。 http://www.catb.org/~esr/faqs/hacker-howto.html なお、この文書の

  • ガンマ乱数生成 - Negative/Positive Thinking

    はじめに 1次元のガンマ分布または逆ガンマ分布に従う乱数を生成したい。 いろんな人が書いているのでちょっと自分も実装してみる。 コード 参照論文 http://www.economicsbulletin.com/2008/volume3/EB-07C10012A.pdf #include <iostream> #include <cmath> //xorshift // 注意: longではなくint(32bit)にすべき unsigned long xor128(){ static unsigned long x=123456789, y=362436069, z=521288629, w=88675123; unsigned long t; t=(x^(x<<11)); x=y; y=z; z=w; return w=(w^(w>>19))^(t^(t>>8)); } //[0,1)の

    ガンマ乱数生成 - Negative/Positive Thinking
  • はてなブログ | 無料ブログを作成しよう

    2024年下半期のフィルム写真たち ふと気がつくと2024年も残り僅か。 そしてふと振り返るとこのブログに掲載する写真がGRIIIで撮ったものばかりになっていたのだけど、決してフィルムに飽きたということではなく、フィルムはフィルムで淡々と撮り続けているし、モノクロもカラーネガもいつも通り自宅で…

    はてなブログ | 無料ブログを作成しよう