jp-mykのブックマーク - はてなブックマーク

本当に必要なN-gramは2割しかない - nokunoの日記

Entropy-based Pruning of Backoff Language Modelsを読んだ．単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが，なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう．そのための対策としてよくあるのが語彙のサイズを制限する方法と，N-gramの頻度が一定以下のものを切り捨てるという方法（後者の場合は語彙も自動的に制限される）．Google 日本語N-gramなども頻度20以上のものが配布されており，効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う（語彙だけだとかなり制限しないとサイズが減らない）．しかしカットオフしすぎると性能はかなり落ち込むので，うまい方法はないものかと考えられたのがこの論文の手法である．N-gramのデータには頻度の高い

jp-myk 2011/09/15

リンク

NLPに関する良質なブログリスト - nokunoの日記

TwitterにいるNLPのすごい人リスト - nokunoの日記のブログ版です．例によって順不同です．生駒日記Seeking for my unique color.ny23の日記Mi manca qualche giovedi`?Standard ML of Yukkuriあんちべ！射撃しつつ前転EchizenBlog-Zweiビームの報告書理系大学院留学日記kisa12012の日記nozyhの日記 Preferred Research 糞ネット弁慶あしたからがんばる ―椀屋本舗unnonounouchiumi log BLOG::broomie.net蝉々亭Overlasting::Lifeやた＠はてな日記aito の日記睡眠不足？！go logo13の日記murawaki の雑記 - rekkenグループmots quotidiens.tb_yasuの日記y_tagの日記アスペ日記人

jp-myk 2011/08/03

リンク

Parallel Stochastic Gradient Discent （NIPS読み会にて発表しました） - nokunoの日記

NIPS読み会にて並列SGDについて発表しました。Parallel Stochastic Gradient Discent #nipsreadingView more presentations from nokuno.他の発表の人の資料は以下。slideshareしかない人のは埋込みにしてあります。まずかったら言ってください。NIPS 2010 論文読み会 / [Ding+] t-Logistic Regression #nipsreading - Mi manca qualche giovedi`?NIPS 2010 読む会View more presentations from tsubosaka.Nips yomikai 1226View more presentations from niammain.nips勉強会_Toward Property-Based Classific

jp-myk 2010/12/29

リンク

統計的自然言語処理エンジンStaKK - nokunoの日記

統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。現在の機能かな漢字変換予測変換またはサジェストスペル訂正形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc （Google日本語入力のOSS版）のデータを使っています。リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。ノーマルモードでは、かなを入力し、単語（主に漢字）を出力します。リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。機能ノーマルモードリバースモード Convert かな漢字変換形態素解析 Predict 予測変換検索ワードのサ

jp-myk 2010/11/24

すごい！

リンク

Google技術講演会@東大に行ってきました - nokunoの日記

id:tsubosakaに教えられて東大へ。Web上での告知は工藤さんのつぶやきだけだったのですが、最後に挙手をしてもらっていたのを見るに、他にも他大学や社会人の方がいらしていたようです。内容的には1/30に行われた大阪での講演と同じもので、詳しいレポートも上がっているのですが、自分の目で見て話を聞くとやっぱり情報量が違うな、ということが分かりました。本の虫: Google日本語入力の技術講演会Google Tech Talk in Osaka に出るために梅田まで - 生駒日記以下、適当なメモ。 IMの一般的な紹介キーバインドとかやたら多いというのは、私もSocial IMEの開発を初めてから知りました‥ 堅牢な設計について大事なことなので３回言いますといって「IMEはクラッシュしてはならない」と６回言った（笑）従来法は単一のDLLに実装されていた…？ MS-IMEやATOKは別

jp-myk 2010/02/05

google
ime

リンク

NLTK Bookで教師なし形態素解析 - nokunoの日記

意外と知られていないようなので、NLTK BookのSegmentationの節にある教師なし形態素解析（単語分割）について紹介してみます。この手法では、テキストを「単語の辞書」と「単語IDの列」で表したときにその合計サイズが最小になるように単語分割の位置を最適化します。言い換えれば、単語の出現確率に一様分布を仮定して圧縮したときに、その圧縮効率を最大とするように単語を分割します。持橋さんの研究よりはるかに単純なモデルですが、原理としては近いものになります。最適化にはシミュレーテッドアニーリング（焼きなまし法）を使っていて、適当に初期化してからランダムに単語分割位置を変えて、評価関数にかけて良い結果になったら採用する、という操作を繰り返し行うものです。 NLTK Bookでは、英語のテキストからスペースを取り除いたものを用いて単語を抽出しています。これはかなり恣意的に選ばれたテキストで、

jp-myk 2010/01/24

リンク

はてなブックマーク

タグ

ブックマーク / d.hatena.ne.jp/nokuno (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス