ブックマーク / d.hatena.ne.jp/nokuno (15)

  • 簡潔データ構造祭りの「ALSIP 2011」招待講演が素晴らしい件について - nokunoの日記

    香川県高松市にて大規模データ処理,特に今年は 簡潔データ構造に重きが置かれた国際会議ALSIP2011(Second Workshop on Algorithms for Large-Scale Information Processing in Knowledge Discovery)が開催されました.ALSIP 2011 私は参加していませんが,招待講演についてはスライドが公開されており,大変興味深い資料となっているので是非一読をお勧めします.定兼 邦彦 - 簡潔データ構造講義資料 - ReaD & Researchmap 文書解析のための簡潔データ構造 : Preferred Research id:echizen_tmさんがブログに参加報告を書かれていて非常に羨ましいです.でも私が行っても事前知識がなさすぎてついていけなかった可能性が高いので,精進します.ALSIP2011に参加し

    r_kurain
    r_kurain 2011/12/06
  • Mozcの辞書から言語モデルを復元する - nokunoの日記

    Google日本語入力のオープンソース版であるMozcは製品版には及ばないものの148Mエントリ, 65MBの辞書がテキストで含まれていることはもっと知られても良いと思う. mozc - Mozc - Japanese Input Method for Chromium OS, Windows, Mac and Linux - Google Project Hosting / - mozc - Mozc - Japanese Input Method for Chromium OS, Windows, Mac and Linux - Google Project Hosting しかしながら,Mozcの辞書に含まれているコストはクラスバイグラムモデルでいうP(w|c)P(y|w)に対応するため,そのままでは元のコーパスで頻度の高い単語がどれなのかわかりづらい.なぜなら,条件部の品詞に稀な値

    r_kurain
    r_kurain 2011/10/13
  • Entropy Pruningで枝刈りされるN-gramを見てみる - nokunoの日記

    以前,N-gram言語モデルにおいて,SRILMに実装されているEntropy Pruningを使うと25%程度のサイズで同程度の性能が出せることを紹介した. 当に必要なN-gramは2割しかない - nokunoの日記 それなら実際にどんなN-gramが削除されるのかを見てみたいと思うのは人情だ.SRILMで採用しているARPAフォーマットは条件付き確率の形になっていてやや見づらいので,同時確率の形に直して値が大きい順に並べてみることにした. parse_ngram.py #!/usr/bin/env python #encoding: utf-8 import sys from optparse import OptionParser if __name__ == '__main__': opt = OptionParser() opt.add_option("-n", dest="

  • 教師なし形態素解析ライブラリlatticelmを使ってみた - nokunoの日記

    ふと思いだして,グラムさんの教師なし形態素解析(単語分割)ツールであるlatticelmを試してみた.音声認識結果のラティスを入力できることが特徴のひとつですが,テキストを入力とする場合はほぼ持橋さんの教師なし形態素解析論文と同等のことを行います.latticelm version 0.2インストールにはOpenFSTが必要です. WebHome Wikipedia文データから10,000行を取り出して適用してみました.$ time ./latticelm -prefix out/ input.txtLoaded 3307 symbolsRunning on 10000 sequences手元のMBAではかなり時間がかかる(1イテレーションに20分近く)ので,途中経過を載せておく.head samp.22 ア ンパ サンド ] ]ア ンパ サンド ( a m p er s a n d

    r_kurain
    r_kurain 2011/10/07
  • 多項分布の最尤推定 - nokunoの日記

    多項分布の最尤推定は確率モデルの基中の基であるが,意外と知らない人も多いので説明しておきたい.ここでいう多項分布は離散変数,たとえば単語や商品,ユーザなどの種類を表す変数の分布である.多項分布は頻度の分布を意味する場合もあるが,今回はNLP業界の慣習にならって観測回数が1回の場合を指す.このような変数はカテゴリカル変数などと呼ばれるらしい. 今,確率でi番目の単語が観測されるものとする.確率なので次の制約が成り立つ.この分布の元で単語が回観測されたとする.パラメータの元でこのような観測がされる確率を尤度関数と呼び,その対数は対数尤度関数と呼ばれる.各観測が上記離散確率の独立同分布に従うとすると,対数尤度関数は以下で表される.最尤推定は,観測値が与えられたときにこの対数尤度関数を最大とするようなパラメータを求める推定方法である.離散変数の場合は先ほどの制約を満たす中で上の対数尤度関数を最

    r_kurain
    r_kurain 2011/10/06
  • MapReduceによる構造化パーセプトロンの並列化 - nokunoの日記

    @neubigさんのつぶやきで,Hadoop HackathonというイベントがEMNLPに関連して行われたことを知る.Hadoop Hackathon 2011そこで実装された構造化パーセプトロンの並列実装が公開されたようだ.agesmundo/HadoopPerceptron - GitHub元々はGoogleによる論文があるようだ.Distributed Training Strategies for the Structured PerceptronHadoop Hackathonはプロジェクトのページを見ると非常に楽しそう.Hadoop Hackathon 2011データさえあればやってみたいと思うのだけど,Twitter Corpusは公開が停止されているようだ.残念.no titleWhat is Twitter, a Social Network or a News Med

    r_kurain
    r_kurain 2011/08/04
  • SVMによる予測変換 - nokunoの日記

    Google日本語入力のOSS版であるMozcが公開されたので、ソースコードを読んでみました。Google Japan Blog: Google 日本語入力がオープンソースになりました mozc - Project Hosting on Google Code変換アルゴリズムや学習のロジックに関しては、id:tkngさんが早速ブログにまとめていますので、そちらを読むとよいと思います。また何か気づいたことがあったら書いてみたいと思います。Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 Mozcのコードで個人的に興味深かったのは予測変換のアルゴリズムでした。私はもともと修論の時に予測変換の研究をしていて、予測変換のトレードオフという問題に取り組んでいました。予測変換は、単純に考えると候補の頻度が高ければ高いほど良いのですが、それだけだと常に最も短い候補が出力されてし

    r_kurain
    r_kurain 2011/06/03
  • C++を鍛え直す - nokunoの日記

    関数全体をtryで囲む int main() try { // 関数内のすべての例外をキャッチできる ... } catch () { ... } 無名名前空間C言語ではグローバル変数にstaticを付けるとファイル内変数になりましたが、C++では無名名前空間を使うことで同じ事を明示的に書くことができます。 namespace { // この中の変数は他のファイルから参照できない int i; } newのバリエーションデフォルトのnew演算子はメモリ確保に失敗するとstd::bad_alloc型の例外を投げるようになっていますが、std::nothrowを使うとNULLを返すようにできます。これは便利! int* p = new(std::nothrow) int; delete p; ※Effective C++によると、nothrow型のnewはメモリ確保に失敗しても例外を投げないも

    r_kurain
    r_kurain 2011/05/13
  • 自然言語処理・機械学習関係の国際会議 - nokunoの日記

    以前論文の探し方のまとめのまとめを書いたのですが、やっぱり自分でまとめないと興味のある学会とかが分かりづらいですね…と、WWW2011の予稿集を見つけて思ったのでした。リンク先は学会ページか今年の会議のページです。 自然言語処理 ACL ACL2011NAACLEMNLP2011 機械学習 NIPS NIPS2011ICML2011 データマイニング SIGKDD KDD2011SIGMOD SIGMOD2011 Web WWW2011SIGIR SIGIR2011 その他 VLDB VLDB2011この辺りの学会で論文読み会とかできたらいいなあ。ACMのSIGなんちゃらは予稿集を公開していない(個人だとACM Portalで有料で見るしかない)ことも多いですが…。他にオススメあったら教えてください。特に実装系ぜんぜんわかりません。ツイートする

    r_kurain
    r_kurain 2011/05/03
  • 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)−1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - nokunoの日記

    第10回#TokyoWebminingに参加してきました。第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)?1st... - Eventbrite オープニング @hamadakoichihamadaさんの話はHadoopカンファレンスからの抜粋を含んでいたのですが、いつもの双方向の進行により議論が進み、時間が伸びるというパターンで安心しましたw 1. 「エンジニアのためのアドテクノロジー再入門:アドテクの基礎からRealTimeBiddingまで」 (講師: @jazzyslide)(発表:30分 + 議論30分)大規模配信•解析技術によるターゲティング技術、オーディエンス(ユーザー)データによる配信などで近年話題になっているアドテクノロジーの全体観を、アドエクスチェンジやReal-Time-Biddingなどの概念を交えつつ、基礎からエン

    r_kurain
    r_kurain 2011/04/10
  • Hadoop Conference Japanに参加しました #hcj2011 - nokunoの日記

    というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。 『Hadoop on クラウド / Amazon Elastic MapReduceの真価』(Amazon Web Services, Jeff Barr) Introduction AWS: 2002-Twitter: @jeffbarr What is Big Data Doesn't refer just to volume Big Data Tool EMR Overview Hadoop Hosting Framework Launch and monitor job flows: Web, CUI, REST Upload data

    r_kurain
    r_kurain 2011/03/04
  • Hidden CRFを用いた評判分析 - nokunoの日記

    Google社員の公開論文のRSSを購読しているのですが、そこで面白い論文を見かけたので流し読みしました。この論文自体はGoogleでインターンをした学生の研究のようですが、Hidden CRFを用いた評判分析というテーマでなかなか面白いと思いました。“Discovering fine-grained sentiment with latent variable structured prediction models”, Oscar Tackstrom, Ryan McDonald, European Conference on Information Retrieval, 2011.(pdf) 問題設定入力文書が複数の文で成り立つとき、「文書単位の評判」と「文単位の評判」を判別したい。ここで評判とはポジティブ/ネガティブ/中立の3値を取る。評判の対象の決定は手法に含まれない。与えられた

    r_kurain
    r_kurain 2011/02/07
    これは面白そう
  • 第9回 データマイニング+WEB 勉強会@東京に参加してきた - nokunoの日記

    というわけで行ってきました。第9回 データマイニング+WEB 勉強会@東京 ( TokyoWebmining 9)?1st Week? 大規模解析・機械学習・クオンツ 祭り? : ATNDFirst Weekって。■大規模解析:1. Mahout Canopy Clustering (講師:@hamadakoichi)(発表30分+議論60分) Canopy Clusteringは通常の多くの手法と異なり、クラスタ数指定を必要とせず、指定距離 離れたクラスタ算出を実現する。 Hadoop上で動作する大規模データマイニング・機械学習ライブラリ Mahoutでの実行法も含めお話しします2. 機械学習=機械の代わりに人間が学習 (講師:@shuyo))(発表20分+議論40分) Gihyo.jp でも機械学習の連載し裾野を広げる活動をされている @shuyo さん。 今回、機械学習歴史や専門外

    r_kurain
    r_kurain 2011/01/16
  • ロジスティック回帰 - PRML復習レーンで発表します - nokunoの日記

    確率的識別モデルの1種であるロジスティック回帰モデルについて説明します。PRML復習レーン(第5回) : ATND PRML復習レーン05 ロジスティック回帰View more presentations from nokuno.

    r_kurain
    r_kurain 2010/11/24
  • 統計的自然言語処理エンジンStaKK - nokunoの日記

    統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

  • 1