タグ

ブックマーク / shuyo.hatenablog.com (4)

  • 夏のプログラミングシンポジウムで「数式を綺麗にプログラミングするコツ」を発表してきました - 木曜不足

    8/25 に開催された夏のプログラミングシンポジウム 2013 にて、「数式を綺麗にプログラミングするコツ」というお話をさせてもらいました。運営、発表に携わった&参加者のみなさん、会場のドリコムさん、お疲れ様でした&ありがとうございました。お水おいしかったです。 こちらが発表資料。 数式を綺麗にプログラミングするコツ #spro2013 from Shuyo Nakatani www.slideshare.net この発表、実は一昨年に Tokyo.SciPy #2 でやらせてもらった「数式を numpy に落としこむコツ」のブラッシュアップ版である。 数式をnumpyに落としこむコツ 変更点は R のサンプルコードの追加と、表現をよりわかりやすくリライトしたという2点であり、紹介されているサンプルも含め質的にはほぼ同じ内容である。手抜きっぽくてごめん。 当は他の例を追加したかったのだ

    夏のプログラミングシンポジウムで「数式を綺麗にプログラミングするコツ」を発表してきました - 木曜不足
    mamoruk
    mamoruk 2013/08/27
    こういうコツをまとめて研究室で共有したい
  • Kneser-Ney Smoothing を試してみた - 木曜不足

    Kneser-Ney Smoothing は高性能な言語モデルである。と、よく聞かされて知っているつもりだけど、まだ一度も試したことがなかったので、試してみた。 コードはここ。 https://github.com/shuyo/iir/blob/master/ngram/knsmooth.py 実験用にべったり書いているのでコピペは多いし、速度やメモリの効率も悪いが、まあ気にしないで。 コーパスは最初手元の適当なニュースコーパスを使っていたんだけど、それだと再現検証できないので、nltk のコーパスを使うように変更した。 nltk.corpus の下にあるコーパスモジュール名を -c オプションで与えると、そのコーパスを使って additive smoothing と Kneser-Ney smoothing の perplexity を出してくれる。 デフォルトでは Brown コーパス

    Kneser-Ney Smoothing を試してみた - 木曜不足
    mamoruk
    mamoruk 2012/12/08
    nltk と連携しているところがいいですね!
  • 極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足

    来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。 中谷 秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/misc/nlp2012_nakatani.pdf 【注】 言語処理学会の公開規定が「大会での発表後」であったため、一旦公開を取り下げていましたが、発表終了したので再公開しました。 http://www.anlp.jp/rules/repository.html 【/注】 第8回 TokyoNLP で発表した「∞-gram を使った短文言語判定」と基線は同じ。ただしその発表の時にお約束していたとおり、17言語の判定精度で 99.1% を達成している。99% 越えは作り始める前から

    極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足
    mamoruk
    mamoruk 2012/02/02
    松本研からも極大部分文字列をウェブテキストに対して使った発表がありますので、タイトル一覧が公開されたときちょっとドキッとしました (笑)
  • #TokyoNLP で「∞-gram を使った短文言語判定」を発表しました - 木曜不足

    TokyoNLP 第8回に のこのこ参加。主催者の id:nokuno さん、発表者&参加者のみなさん、そして会場を提供してくださった EC ナビさん改め VOYAGE GROUP さん& @ajiyoshi さん、お疲れ様でした&ありがとうございました。 今回は「∞-gram を使った短文言語判定」というネタを発表。「短文言語判定」って、要は「このツイートは何語?」ってこと。 こちらが資料。 ∞-gram を使った短文言語判定 View more presentations from Shuyo Nakatani そして実装したプロトタイプ ldig (Language Detection with Infinity-Gram) とモデル(小)はこちらで公開。 https://github.com/shuyo/ldig 言語判定とは「文章が何語で書かれているか」を当てるタスクで、以前一度

    #TokyoNLP で「∞-gram を使った短文言語判定」を発表しました - 木曜不足
    mamoruk
    mamoruk 2011/11/25
    参考文献がガチ
  • 1