nhayatoのブックマーク - はてなブックマーク

極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足

来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。中谷秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/misc/nlp2012_nakatani.pdf 【注】言語処理学会の公開規定が「大会での発表後」であったため、一旦公開を取り下げていましたが、発表終了したので再公開しました。 http://www.anlp.jp/rules/repository.html 【／注】第8回 TokyoNLP で発表した「∞-gram を使った短文言語判定」と基本線は同じ。ただしその発表の時にお約束していたとおり、17言語の判定精度で 99.1% を達成している。99% 越えは作り始める前から

nhayato 2013/09/24

twitter
nlp

リンク

Kneser-Ney スムージングによる文書生成 - 木曜不足

少し前に Kneser-Ney スムージングの性能を測ってみた記事を書いたが、今回は Kneser-Ney スムージングによる n-Gram 言語モデルで文書生成を行なってみた。スクリプトはこちら。 https://github.com/shuyo/iir/blob/master/ngram/knlm.py 適当なテキストファイル(複数可)を入力すると、1行1文書の訓練データとみなして Kneser-Ney スムージング付きの n-Gram 言語モデルを学習後、文書を生成してファイルに出力する。オプションもいくつか指定できるが、-h でヘルプを出すか、ソースを読むかしてもらえば。与えられた文書の確率を Kneser-Ney で計算するには、ディスカウントによって生じる正規化係数の補正を求めるために N1+ などのちょいややこしい値をあらかじめ計算して保持しておかないといけないが、文

nhayato 2013/07/24

リンク

LDA のパープレキシティを使うとき - 木曜不足

NLP2012 のポスター発表にて、LDA の文字を見かけるたびに思わずフラフラ〜と近寄り、あーだこーだ無責任なことを述べていたら、決まって「 shuyo さんですよね？」なんでも、お茶の水大の小林先生の研究室の学生さんはみなさん揃って（かな？）トピックモデルをなにがしか絡めて研究されており、このブログの LDA ネタを参照していただけているという。なんとも有り難いというか照れくさいというか。なにがしかのお役に立てているのはもちろん嬉しい反面、n_shuyo は言語処理も機械学習も専門家ではないので、ここに書いてあることを鵜呑みにはしないでいただくことはやっぱりお願いしておかなければ。というわけで、不足や間違いの指摘は絶賛大歓迎＞読者各位で、ここまで前振り。そうしたポスターの発表を拝見させていただいていた中で、パープレキシティ周りの扱いがちょっと気になったので、少し思うところをま

nhayato 2013/06/20

リンク

NAIST で twitter 言語判定について発表してきました - 木曜不足

5/14 に NAIST(奈良先端科学技術大学院大学) にて「∞-gramを使った短文言語判定」について発表してきました。素晴らしい機会をいただいてありがとうございました。その時の資料を公開します。内容は TokyoNLP #8 や言語処理学会2012＠広島市大で発表したものをちょっと丁寧に＋αした感じ。 Short Text Language Detection with Infinity-Gram View more presentations from Shuyo Nakatani NAIST 小町さんから M1 向けのセミナーで発表してみませんかとお話をいただいて、「ぜひやります」と二つ返事でお引き受けしたものの、本当に中谷でいいんだろうかーとあとから心配になったのはないしょｗ小町さんからは、機械学習や自然言語処理を実応用で使っているエンジニアの立場、というところを学生さんに

nhayato 2012/05/18

リンク

#TokyoNLP で「∞-gram を使った短文言語判定」を発表しました - 木曜不足

TokyoNLP 第8回にのこのこ参加。主催者の id:nokuno さん、発表者＆参加者のみなさん、そして会場を提供してくださった EC ナビさん改め VOYAGE GROUP さん＆ @ajiyoshi さん、お疲れ様でした＆ありがとうございました。今回は「∞-gram を使った短文言語判定」というネタを発表。「短文言語判定」って、要は「このツイートは何語？」ってこと。こちらが資料。 ∞-gram を使った短文言語判定 View more presentations from Shuyo Nakatani そして実装したプロトタイプ ldig (Language Detection with Infinity-Gram) とモデル(小)はこちらで公開。 https://github.com/shuyo/ldig 言語判定とは「文章が何語で書かれているか」を当てるタスクで、以前一度

nhayato 2012/05/14

nlp

リンク

自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足

第2回自然言語処理勉強会＠東京にのこのこ行ってきました。ありがとうございました＆お疲れ様でした＞各位。今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。ナイーブベイズによる言語判定 from Shuyo Nakatani 内容は、仕事で作った(←ここ重要)言語判定ライブラリの紹介。前回の「本文抽出 using CRF」は検証プロトタイプであったわけだが、今回はオープンソースとして公開＆最終的に製品に組み込むことを目標とした代物なので、「なんか良さげな感じ〜」だと駄目。目指すのは 50言語、99.うん%。精度を上げるためにやれることならなんでもやる、というのがミッションなので、限りなく泥臭いことの積み重ねになる。というわけでここ2ヶ月の積み重ねを資料にしてみたら、なんか膨大になってきて、また今回もしゃべりすぎてしまった(汗楽しんでいただけた