r_kurainのブックマーク - はてなブックマーク

簡潔データ構造祭りの「ALSIP 2011」招待講演が素晴らしい件について - nokunoの日記

香川県高松市にて大規模データ処理，特に今年は簡潔データ構造に重きが置かれた国際会議ALSIP2011(Second Workshop on Algorithms for Large-Scale Information Processing in Knowledge Discovery)が開催されました．ALSIP 2011 私は参加していませんが，招待講演についてはスライドが公開されており，大変興味深い資料となっているので是非一読をお勧めします．定兼　邦彦 - 簡潔データ構造講義資料 - ReaD & Researchmap 文書解析のための簡潔データ構造 : Preferred Research id:echizen_tmさんがブログに参加報告を書かれていて非常に羨ましいです．でも私が行っても事前知識がなさすぎてついていけなかった可能性が高いので，精進します．ALSIP2011に参加し

r_kurain 2011/12/06

リンク

Mozcの辞書から言語モデルを復元する - nokunoの日記

Google日本語入力のオープンソース版であるMozcは製品版には及ばないものの148Mエントリ, 65MBの辞書がテキストで含まれていることはもっと知られても良いと思う． mozc - Mozc - Japanese Input Method for Chromium OS, Windows, Mac and Linux - Google Project Hosting / - mozc - Mozc - Japanese Input Method for Chromium OS, Windows, Mac and Linux - Google Project Hosting しかしながら，Mozcの辞書に含まれているコストはクラスバイグラムモデルでいうP(w|c)P(y|w)に対応するため，そのままでは元のコーパスで頻度の高い単語がどれなのかわかりづらい．なぜなら，条件部の品詞に稀な値

r_kurain 2011/10/13

リンク

Entropy Pruningで枝刈りされるN-gramを見てみる - nokunoの日記

以前，N-gram言語モデルにおいて，SRILMに実装されているEntropy Pruningを使うと25%程度のサイズで同程度の性能が出せることを紹介した．本当に必要なN-gramは2割しかない - nokunoの日記それなら実際にどんなN-gramが削除されるのかを見てみたいと思うのは人情だ．SRILMで採用しているARPAフォーマットは条件付き確率の形になっていてやや見づらいので，同時確率の形に直して値が大きい順に並べてみることにした． parse_ngram.py #!/usr/bin/env python #encoding: utf-8 import sys from optparse import OptionParser if __name__ == '__main__': opt = OptionParser() opt.add_option("-n", dest="

r_kurain 2011/10/12

あとで読む

リンク

教師なし形態素解析ライブラリlatticelmを使ってみた - nokunoの日記

ふと思いだして，グラムさんの教師なし形態素解析（単語分割）ツールであるlatticelmを試してみた．音声認識結果のラティスを入力できることが特徴のひとつですが，テキストを入力とする場合はほぼ持橋さんの教師なし形態素解析論文と同等のことを行います．latticelm version 0.2インストールにはOpenFSTが必要です． WebHome Wikipediaの本文データから10,000行を取り出して適用してみました．$ time ./latticelm -prefix out/ input.txtLoaded 3307 symbolsRunning on 10000 sequences手元のMBAではかなり時間がかかる（1イテレーションに20分近く）ので，途中経過を載せておく．head samp.22 アンパサンド ] ]アンパサンド ( a m p er s a n d

r_kurain 2011/10/07

リンク

多項分布の最尤推定 - nokunoの日記

多項分布の最尤推定は確率モデルの基本中の基本であるが，意外と知らない人も多いので説明しておきたい．ここでいう多項分布は離散変数，たとえば単語や商品，ユーザなどの種類を表す変数の分布である．多項分布は頻度の分布を意味する場合もあるが，今回はNLP業界の慣習にならって観測回数が1回の場合を指す．このような変数はカテゴリカル変数などと呼ばれるらしい．今，確率でi番目の単語が観測されるものとする．確率なので次の制約が成り立つ．この分布の元で単語が回観測されたとする．パラメータの元でこのような観測がされる確率を尤度関数と呼び，その対数は対数尤度関数と呼ばれる．各観測が上記離散確率の独立同分布に従うとすると，対数尤度関数は以下で表される．最尤推定は，観測値が与えられたときにこの対数尤度関数を最大とするようなパラメータを求める推定方法である．離散変数の場合は先ほどの制約を満たす中で上の対数尤度関数を最

r_kurain 2011/10/06

リンク

MapReduceによる構造化パーセプトロンの並列化 - nokunoの日記

@neubigさんのつぶやきで，Hadoop HackathonというイベントがEM NLPに関連して行われたことを知る．Hadoop Hackathon 2011そこで実装された構造化パーセプトロンの並列実装が公開されたようだ．agesmundo/HadoopPerceptron - GitHub元々はGoogleによる論文があるようだ．Distributed Training Strategies for the Structured PerceptronHadoop Hackathonはプロジェクトのページを見ると非常に楽しそう．Hadoop Hackathon 2011データさえあればやってみたいと思うのだけど，Twitter Corpusは公開が停止されているようだ．残念．no titleWhat is Twitter, a Social Network or a News Med

r_kurain 2011/08/04

リンク

SVMによる予測変換 - nokunoの日記

Google日本語入力のOSS版であるMozcが公開されたので、ソースコードを読んでみました。Google Japan Blog: Google 日本語入力がオープンソースになりました mozc - Project Hosting on Google Code変換アルゴリズムや学習のロジックに関しては、id:tkngさんが早速ブログにまとめていますので、そちらを読むとよいと思います。また何か気づいたことがあったら書いてみたいと思います。Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 Mozcのコードで個人的に興味深かったのは予測変換のアルゴリズムでした。私はもともと修論の時に予測変換の研究をしていて、予測変換のトレードオフという問題に取り組んでいました。予測変換は、単純に考えると候補の頻度が高ければ高いほど良いのですが、それだけだと常に最も短い候補が出力されてし

r_kurain 2011/06/03

リンク

C++を鍛え直す - nokunoの日記

関数全体をtryで囲む int main() try { // 関数内のすべての例外をキャッチできる ... } catch () { ... } 無名名前空間C言語ではグローバル変数にstaticを付けるとファイル内変数になりましたが、C++では無名名前空間を使うことで同じ事を明示的に書くことができます。 namespace { // この中の変数は他のファイルから参照できない int i; } newのバリエーションデフォルトのnew演算子はメモリ確保に失敗するとstd::bad_alloc型の例外を投げるようになっていますが、std::nothrowを使うとNULLを返すようにできます。これは便利！ int* p = new(std::nothrow) int; delete p; ※Effective C++によると、nothrow型のnewはメモリ確保に失敗しても例外を投げないも

r_kurain 2011/05/13

リンク

自然言語処理・機械学習関係の国際会議 - nokunoの日記

以前論文の探し方のまとめのまとめを書いたのですが、やっぱり自分でまとめないと興味のある学会とかが分かりづらいですね…と、WWW2011の予稿集を見つけて思ったのでした。リンク先は学会ページか今年の会議のページです。自然言語処理 ACL ACL2011NAACLEM NLP2011 機械学習 NIPS NIPS2011ICML2011 データマイニング SIGKDD KDD2011SIGMOD SIGMOD2011 Web WWW2011SIGIR SIGIR2011 その他 VLDB VLDB2011この辺りの学会で論文読み会とかできたらいいなあ。ACMのSIGなんちゃらは予稿集を公開していない（個人だとACM Portalで有料で見るしかない）ことも多いですが…。他にオススメあったら教えてください。特に実装系ぜんぜんわかりません。ツイートする

r_kurain 2011/05/03

リンク

第10回データマイニング+WEB 勉強会＠東京　( #TokyoWebmining 10th)−1st Week−広告ネットワーク・グラフ解析・並列機械学習祭り− - nokunoの日記

第10回#TokyoWebminingに参加してきました。第10回データマイニング+WEB 勉強会＠東京　( #TokyoWebmining 10th)?1st... - Eventbrite オープニング @hamadakoichihamadaさんの話はHadoopカンファレンスからの抜粋を含んでいたのですが、いつもの双方向の進行により議論が進み、時間が伸びるというパターンで安心しましたｗ 1. 「エンジニアのためのアドテクノロジー再入門：アドテクの基礎からRealTimeBiddingまで」 (講師： @jazzyslide)(発表：30分 + 議論30分)大規模配信•解析技術によるターゲティング技術、オーディエンス(ユーザー)データによる配信などで近年話題になっているアドテクノロジーの全体観を、アドエクスチェンジやReal-Time-Biddingなどの概念を交えつつ、基礎からエン

r_kurain 2011/04/10

リンク

Hadoop Conference Japanに参加しました #hcj2011 - nokunoの日記

というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ本社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。『Hadoop on クラウド / Amazon Elastic MapReduceの真価』（Amazon Web Services, Jeff Barr） Introduction AWS: 2002-Twitter: @jeffbarr What is Big Data Doesn't refer just to volume Big Data Tool EMR Overview Hadoop Hosting Framework Launch and monitor job flows: Web, CUI, REST Upload data

r_kurain 2011/03/04

リンク

Hidden CRFを用いた評判分析 - nokunoの日記

Google社員の公開論文のRSSを購読しているのですが、そこで面白い論文を見かけたので流し読みしました。この論文自体はGoogleでインターンをした学生の研究のようですが、Hidden CRFを用いた評判分析というテーマでなかなか面白いと思いました。“Discovering fine-grained sentiment with latent variable structured prediction models”, Oscar Tackstrom, Ryan McDonald, European Conference on Information Retrieval, 2011.(pdf) 問題設定入力文書が複数の文で成り立つとき、「文書単位の評判」と「文単位の評判」を判別したい。ここで評判とはポジティブ/ネガティブ/中立の３値を取る。評判の対象の決定は手法に含まれない。与えられた

r_kurain 2011/02/07

これは面白そう

リンク

第９回データマイニング+WEB 勉強会＠東京に参加してきた - nokunoの日記

というわけで行ってきました。第９回データマイニング+WEB 勉強会＠東京　( TokyoWebmining 9)?1st Week? 大規模解析・機械学習・クオンツ祭り? : ATNDFirst Weekって。■大規模解析：1. Mahout Canopy Clustering (講師：@hamadakoichi)(発表30分＋議論60分)　Canopy Clusteringは通常の多くの手法と異なり、クラスタ数指定を必要とせず、指定距離離れたクラスタ算出を実現する。　Hadoop上で動作する大規模データマイニング・機械学習ライブラリ Mahoutでの実行法も含めお話しします2. 機械学習＝機械の代わりに人間が学習 (講師：@shuyo))(発表20分＋議論40分)　Gihyo.jp でも機械学習の連載し裾野を広げる活動をされている @shuyo さん。　今回、機械学習の歴史や専門外

r_kurain 2011/01/16

リンク

ロジスティック回帰 - PRML復習レーンで発表します - nokunoの日記

確率的識別モデルの1種であるロジスティック回帰モデルについて説明します。PRML復習レーン（第5回） : ATND PRML復習レーン05 ロジスティック回帰View more presentations from nokuno.

r_kurain 2010/11/24

リンク

統計的自然言語処理エンジンStaKK - nokunoの日記

統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。現在の機能かな漢字変換予測変換またはサジェストスペル訂正形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc （Google日本語入力のOSS版）のデータを使っています。リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。ノーマルモードでは、かなを入力し、単語（主に漢字）を出力します。リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。機能ノーマルモードリバースモード Convert かな漢字変換形態素解析 Predict 予測変換検索ワードのサ

r_kurain 2010/11/24

これはすごい

リンク

はてなブックマーク

タグ

ブックマーク / d.hatena.ne.jp/nokuno (15)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス