murawakiのブックマーク - はてなブックマーク

本当に必要なN-gramは2割しかない - nokunoの日記

Entropy-based Pruning of Backoff Language Modelsを読んだ．単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが，なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう．そのための対策としてよくあるのが語彙のサイズを制限する方法と，N-gramの頻度が一定以下のものを切り捨てるという方法（後者の場合は語彙も自動的に制限される）．Google 日本語N-gramなども頻度20以上のものが配布されており，効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う（語彙だけだとかなり制限しないとサイズが減らない）．しかしカットオフしすぎると性能はかなり落ち込むので，うまい方法はないものかと考えられたのがこの論文の手法である．N-gramのデータには頻度の高い

murawaki 2011/09/19

リンク

言語処理学会2日目 #nlp2011 - nokunoの日記

F2-1 用言の新しい意味類型ー作用性用言と形状性用言ー (pp.560-563) ○中山匠, 山本和英 (長岡技科大) 背景・目的用言を意味的に分類したい形状性用言、作用性用言形態的な制約は考えない表現長は考えない関連研究評判分析のために辞書を作成した研究意味類型を定義：動作、変化、感覚・感情、形容まとめ用言を意味的に分類するため、形状性用言、作用性用言を定義した意味的に分類祭の問題を解決するため、意味類型を定義した意味類型をIPA評価体系日本語辞書の動詞に付与した付与した結果、動詞全体のうち14%が形状生用言になることが分かったもともと評判分析を行ないたかったが、辞書に問題があることに気づいた F2-2 混成型別サンプリングを用いた名詞句分割 (pp.564-567) ○村脇有吾, 黒橋禎夫 (京大) 例フェルミエネルギー→フェルミ・エネルギー抗甲状腺剤→

murawaki 2011/03/10

リンク

言語処理学会1日目 #nlp2011 - nokunoの日記

朝5時に起きて豊橋へ。新幹線の中で緊張のため？眠れず、午後からかなりしんどかっったので、飲み会には参加せずホテルへ（チェックインもしてなかったし）。 C1-1 シソーラスを利用した文書クラスタリングにおける次元圧縮アルゴリズムの性能評価 ○酒井将太, 新美礼彦 (未来大) 背景・目的ベクトルう区間モデルシソーラスやオントロジーの利用シソーラスを用いた文書クラスタリング手法・理論シソーラスを利用した特徴ベクトル日本語WordNet 特徴ベクトル構築形態素解析を行い、前単語列を日本語WordNetで検索 3種類のsynsetを特徴ベクトルとする次元圧縮アルゴリズムの適用 LSI、主成分分析(PCA)、属性選択実験提案手法：日本語WordNetを利用既存手法：単語の出現頻度を利用実験A:楽天でデータ公開されている商品データ前処理：数字の正規化など実験結果：シソーラスを

murawaki 2011/03/08

リンク

TokyoNLP #4 を開催しました - nokunoの日記

第4回自然言語処理勉強会＠東京 : ATND N-gram Language Model for Speech Recognition by @y_shindoh さん音声認識の概要音声データ（音声特徴量MFC,PLP)→音声認識エンジン（デコーダ）→音声認識結果音響モデル＋言語モデル音声特徴量（MFC）：LPCM→スペクトル→MFC フレーミング、ハミング窓、高域強調フィルタ、FFT 絶対値→聴覚フィルタ→対数化→DCT 階層モデル：単語→モーラ→音素読みが複数ある場合は？→両方考える、確率を振ることもある音声認識のしくみ高周波を落とした場合（電話など）は？ →専用の音響モデルを作ったり、ローカルで特徴抽出したり音声認識の種類：独立単語型、記述文法型（CFG）、ディクテーション型（N-gram）音声認識では通常3-gramが用いられる。単語N-gramの高精度化と0頻

murawaki 2011/01/22

リンク

第９回データマイニング+WEB 勉強会＠東京に参加してきた - nokunoの日記

というわけで行ってきました。第９回データマイニング+WEB 勉強会＠東京　( TokyoWebmining 9)?1st Week? 大規模解析・機械学習・クオンツ祭り? : ATNDFirst Weekって。■大規模解析：1. Mahout Canopy Clustering (講師：@hamadakoichi)(発表30分＋議論60分)　Canopy Clusteringは通常の多くの手法と異なり、クラスタ数指定を必要とせず、指定距離離れたクラスタ算出を実現する。　Hadoop上で動作する大規模データマイニング・機械学習ライブラリ Mahoutでの実行法も含めお話しします2. 機械学習＝機械の代わりに人間が学習 (講師：@shuyo))(発表20分＋議論40分)　Gihyo.jp でも機械学習の連載し裾野を広げる活動をされている @shuyo さん。　今回、機械学習の歴史や専門外

murawaki 2011/01/16

survey

リンク

Parallel Stochastic Gradient Discent （NIPS読み会にて発表しました） - nokunoの日記

NIPS読み会にて並列SGDについて発表しました。Parallel Stochastic Gradient Discent #nipsreadingView more presentations from nokuno.他の発表の人の資料は以下。slideshareしかない人のは埋込みにしてあります。まずかったら言ってください。NIPS 2010 論文読み会 / [Ding+] t-Logistic Regression #nipsreading - Mi manca qualche giovedi`?NIPS 2010 読む会View more presentations from tsubosaka.Nips yomikai 1226View more presentations from niammain.nips勉強会_Toward Property-Based Classific

murawaki 2010/12/27

ML

リンク

「Mozcソースコード徹底解説」 at 第２回自然言語処理勉強会 - nokunoの日記

というわけで自然言語処理勉強会を開催しました。第2回自然言語処理勉強会＠東京 : ATND私の発表は、シルバーウィークにもう１回読んでみたMozcのソースコードの解説をしました。Tokyotextmining02 mozcView more presentations from nokuno. その他、関連するリンクです。Togetter - 「第2回自然言語処理勉強会＠東京 (#tokyotextmining)」自然言語処理研究会 - tsubosakaの日記 (id:tsubosakaさん）自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - Mi manca qualche giovedi`? (id:n_shuyoさん）Query Suggestion @ tokyotextmining#2 (@y_benjoさん）

murawaki 2010/09/26

IM

リンク

SVMによる予測変換 - nokunoの日記

Google日本語入力のOSS版であるMozcが公開されたので、ソースコードを読んでみました。Google Japan Blog: Google 日本語入力がオープンソースになりました mozc - Project Hosting on Google Code変換アルゴリズムや学習のロジックに関しては、id:tkngさんが早速ブログにまとめていますので、そちらを読むとよいと思います。また何か気づいたことがあったら書いてみたいと思います。Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 Mozcのコードで個人的に興味深かったのは予測変換のアルゴリズムでした。私はもともと修論の時に予測変換の研究をしていて、予測変換のトレードオフという問題に取り組んでいました。予測変換は、単純に考えると候補の頻度が高ければ高いほど良いのですが、それだけだと常に最も短い候補が出力されてし

murawaki 2010/05/15

IM

リンク

Google技術講演会@東大に行ってきました - nokunoの日記

id:tsubosakaに教えられて東大へ。Web上での告知は工藤さんのつぶやきだけだったのですが、最後に挙手をしてもらっていたのを見るに、他にも他大学や社会人の方がいらしていたようです。内容的には1/30に行われた大阪での講演と同じもので、詳しいレポートも上がっているのですが、自分の目で見て話を聞くとやっぱり情報量が違うな、ということが分かりました。本の虫: Google日本語入力の技術講演会Google Tech Talk in Osaka に出るために梅田まで - 生駒日記以下、適当なメモ。 IMの一般的な紹介キーバインドとかやたら多いというのは、私もSocial IMEの開発を初めてから知りました‥ 堅牢な設計について大事なことなので３回言いますといって「IMEはクラッシュしてはならない」と６回言った（笑）従来法は単一のDLLに実装されていた…？ MS-IMEやATOKは別

murawaki 2010/02/05

IM

リンク

NLTK Bookで教師なし形態素解析 - nokunoの日記

意外と知られていないようなので、NLTK BookのSegmentationの節にある教師なし形態素解析（単語分割）について紹介してみます。この手法では、テキストを「単語の辞書」と「単語IDの列」で表したときにその合計サイズが最小になるように単語分割の位置を最適化します。言い換えれば、単語の出現確率に一様分布を仮定して圧縮したときに、その圧縮効率を最大とするように単語を分割します。持橋さんの研究よりはるかに単純なモデルですが、原理としては近いものになります。最適化にはシミュレーテッドアニーリング（焼きなまし法）を使っていて、適当に初期化してからランダムに単語分割位置を変えて、評価関数にかけて良い結果になったら採用する、という操作を繰り返し行うものです。 NLTK Bookでは、英語のテキストからスペースを取り除いたものを用いて単語を抽出しています。これはかなり恣意的に選ばれたテキストで、

murawaki 2010/01/25

リンク

はてなブックマーク

タグ

ブックマーク / d.hatena.ne.jp/nokuno (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス