ブックマーク / d.hatena.ne.jp/nokuno (10)

  • 本当に必要なN-gramは2割しかない - nokunoの日記

    Entropy-based Pruning of Backoff Language Modelsを読んだ.単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが,なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう.そのための対策としてよくあるのが語彙のサイズを制限する方法と,N-gramの頻度が一定以下のものを切り捨てるという方法(後者の場合は語彙も自動的に制限される).Google語N-gramなども頻度20以上のものが配布されており,効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う(語彙だけだとかなり制限しないとサイズが減らない).しかしカットオフしすぎると性能はかなり落ち込むので,うまい方法はないものかと考えられたのがこの論文の手法である.N-gramのデータには頻度の高い

    murawaki
    murawaki 2011/09/19
  • 言語処理学会2日目 #nlp2011 - nokunoの日記

    F2-1 用言の新しい意味類型ー作用性用言と形状性用言ー (pp.560-563) ○中山匠, 山和英 (長岡技科大) 背景・目的 用言を意味的に分類したい 形状性用言、作用性用言 形態的な制約は考えない 表現長は考えない 関連研究 評判分析のために辞書を作成した研究 意味類型を定義:動作、変化、感覚・感情、形容 まとめ 用言を意味的に分類するため、形状性用言、作用性用言を定義した 意味的に分類祭の問題を解決するため、意味類型を定義した 意味類型をIPA評価体系日語辞書の動詞に付与した 付与した結果、動詞全体のうち14%が形状生用言になることが分かった もともと評判分析を行ないたかったが、辞書に問題があることに気づいた F2-2 混成型別サンプリングを用いた名詞句分割 (pp.564-567) ○村脇有吾, 黒橋禎夫 (京大) 例 フェルミエネルギー→フェルミ・エネルギー 抗甲状腺剤→

    murawaki
    murawaki 2011/03/10
  • 言語処理学会1日目 #nlp2011 - nokunoの日記

    朝5時に起きて豊橋へ。新幹線の中で緊張のため?眠れず、午後からかなりしんどかっったので、飲み会には参加せずホテルへ(チェックインもしてなかったし)。 C1-1 シソーラスを利用した文書クラスタリングにおける次元圧縮アルゴリズムの性能評価 ○酒井将太, 新美礼彦 (未来大) 背景・目的 ベクトルう区間モデル シソーラスやオントロジーの利用 シソーラスを用いた文書クラスタリング 手法・理論 シソーラスを利用した特徴ベクトル 日語WordNet 特徴ベクトル構築 形態素解析を行い、前単語列を日語WordNetで検索 3種類のsynsetを特徴ベクトルとする 次元圧縮アルゴリズムの適用 LSI、主成分分析(PCA)、属性選択 実験 提案手法:日語WordNetを利用 既存手法:単語の出現頻度を利用 実験A:楽天でデータ公開されている商品データ 前処理:数字の正規化など 実験結果:シソーラスを

    murawaki
    murawaki 2011/03/08
  • TokyoNLP #4 を開催しました - nokunoの日記

    第4回 自然言語処理勉強会@東京 : ATND N-gram Language Model for Speech Recognition by @y_shindoh さん 音声認識の概要 音声データ(音声特徴量MFC,PLP)→音声認識エンジン(デコーダ)→音声認識結果 音響モデル+言語モデル 音声特徴量(MFC):LPCM→スペクトル→MFC フレーミング、ハミング窓、高域強調フィルタ、FFT 絶対値→聴覚フィルタ→対数化→DCT 階層モデル:単語→モーラ→音素 読みが複数ある場合は?→両方考える、確率を振ることもある音声認識のしくみ 高周波を落とした場合(電話など)は? →専用の音響モデルを作ったり、ローカルで特徴抽出したり 音声認識の種類:独立単語型、記述文法型(CFG)、ディクテーション型(N-gram) 音声認識では通常3-gramが用いられる。 単語N-gramの高精度化と0頻

    murawaki
    murawaki 2011/01/22
  • 第9回 データマイニング+WEB 勉強会@東京に参加してきた - nokunoの日記

    というわけで行ってきました。第9回 データマイニング+WEB 勉強会@東京 ( TokyoWebmining 9)?1st Week? 大規模解析・機械学習・クオンツ 祭り? : ATNDFirst Weekって。■大規模解析:1. Mahout Canopy Clustering (講師:@hamadakoichi)(発表30分+議論60分) Canopy Clusteringは通常の多くの手法と異なり、クラスタ数指定を必要とせず、指定距離 離れたクラスタ算出を実現する。 Hadoop上で動作する大規模データマイニング・機械学習ライブラリ Mahoutでの実行法も含めお話しします2. 機械学習=機械の代わりに人間が学習 (講師:@shuyo))(発表20分+議論40分) Gihyo.jp でも機械学習の連載し裾野を広げる活動をされている @shuyo さん。 今回、機械学習歴史や専門外

  • Parallel Stochastic Gradient Discent (NIPS読み会にて発表しました) - nokunoの日記

    NIPS読み会にて並列SGDについて発表しました。Parallel Stochastic Gradient Discent #nipsreadingView more presentations from nokuno.他の発表の人の資料は以下。slideshareしかない人のは埋込みにしてあります。まずかったら言ってください。NIPS 2010 論文読み会 / [Ding+] t-Logistic Regression #nipsreading - Mi manca qualche giovedi`?NIPS 2010 読む会View more presentations from tsubosaka.Nips yomikai 1226View more presentations from niammain.nips勉強会_Toward Property-Based Classific

    murawaki
    murawaki 2010/12/27
  • 「Mozcソースコード徹底解説」 at 第2回自然言語処理勉強会 - nokunoの日記

    というわけで自然言語処理勉強会を開催しました。第2回自然言語処理勉強会@東京 : ATND私の発表は、シルバーウィークにもう1回読んでみたMozcのソースコードの解説をしました。Tokyotextmining02 mozcView more presentations from nokuno. その他、関連するリンクです。Togetter - 「第2回 自然言語処理勉強会@東京 (#tokyotextmining)」 自然言語処理研究会 - tsubosakaの日記 (id:tsubosakaさん) 自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - Mi manca qualche giovedi`? (id:n_shuyoさん)Query Suggestion @ tokyotextmining#2 (@y_benjoさん)

    murawaki
    murawaki 2010/09/26
  • SVMによる予測変換 - nokunoの日記

    Google日本語入力のOSS版であるMozcが公開されたので、ソースコードを読んでみました。Google Japan Blog: Google 日本語入力がオープンソースになりました mozc - Project Hosting on Google Code変換アルゴリズムや学習のロジックに関しては、id:tkngさんが早速ブログにまとめていますので、そちらを読むとよいと思います。また何か気づいたことがあったら書いてみたいと思います。Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 Mozcのコードで個人的に興味深かったのは予測変換のアルゴリズムでした。私はもともと修論の時に予測変換の研究をしていて、予測変換のトレードオフという問題に取り組んでいました。予測変換は、単純に考えると候補の頻度が高ければ高いほど良いのですが、それだけだと常に最も短い候補が出力されてし

    murawaki
    murawaki 2010/05/15
  • Google技術講演会@東大に行ってきました - nokunoの日記

    id:tsubosakaに教えられて東大へ。Web上での告知は工藤さんのつぶやきだけだったのですが、最後に挙手をしてもらっていたのを見るに、他にも他大学や社会人の方がいらしていたようです。内容的には1/30に行われた大阪での講演と同じもので、詳しいレポートも上がっているのですが、自分の目で見て話を聞くとやっぱり情報量が違うな、ということが分かりました。 の虫: Google日本語入力技術講演会Google Tech Talk in Osaka に出るために梅田まで - 生駒日記以下、適当なメモ。 IMの一般的な紹介 キーバインドとかやたら多いというのは、私もSocial IMEの開発を初めてから知りました‥ 堅牢な設計について 大事なことなので3回言いますといって「IMEはクラッシュしてはならない」と6回言った(笑) 従来法は単一のDLLに実装されていた…? MS-IMEやATOKは別

    murawaki
    murawaki 2010/02/05
  • NLTK Bookで教師なし形態素解析 - nokunoの日記

    意外と知られていないようなので、NLTK BookのSegmentationの節にある教師なし形態素解析(単語分割)について紹介してみます。 この手法では、テキストを「単語の辞書」と「単語IDの列」で表したときにその合計サイズが最小になるように単語分割の位置を最適化します。言い換えれば、単語の出現確率に一様分布を仮定して圧縮したときに、その圧縮効率を最大とするように単語を分割します。持橋さんの研究よりはるかに単純なモデルですが、原理としては近いものになります。最適化にはシミュレーテッドアニーリング(焼きなまし法)を使っていて、適当に初期化してからランダムに単語分割位置を変えて、評価関数にかけて良い結果になったら採用する、という操作を繰り返し行うものです。 NLTK Bookでは、英語のテキストからスペースを取り除いたものを用いて単語を抽出しています。これはかなり恣意的に選ばれたテキストで、

    murawaki
    murawaki 2010/01/25
  • 1