rokujyouhitomaのブックマーク - はてなブックマーク

きまぐれ日記: 情報抽出アルゴリズム Espresso の謎

Espresso という情報抽出アルゴリズムを使った研究が散見されるようになったので、ちょっと深追いしてみました。基本的に Bootstrapping をベースにしているようです。 Bootstrapping のアイデアはわかりやすいのですが、実際動かすには設定すべきパラメータがいくつもあります(各Iteration でどういう基準で何個パターンを見つけたらいいのかなど)。 Espresso は、この設定すべきパラーメータがアルゴリズムとして明示的に記述されており、わりと再現・実装がしやすいアルゴリズムだと感じました。しかし、式を追ってみると、最終的な結果は Seed に依存しないのではないかという疑惑が出てきました。オリジナルの論文の式をみていきましょう。 http://www.patrickpantel.com/Download/Papers/2006/acl06-01

rokujyouhitoma 2015/05/03

Espresso
NLP

リンク

きまぐれ日記: 情報抽出アルゴリズム Espresso 最終章

Espresso を飲みながらさらに Espresso を考えていました。 r_instance = A^n * r_instance_0 となるのは間違いないと思います。A は P * P^{T}、さらに P = 1/|I||P| * pmi(i, p)/ maxpmi です。 A は、インスタンスどうしの類似度を表現した正方対称行列です。A_{i,j} はインスタンス i, j の類似度です。類似度は、パターン個数次元からなるベクトルの内積で、各次元は pmi となります。この形だと、r_instanc は r_instance_0 できまるので、初期値に依存してるように思えますが、A^n がいったいどういう意味を持つのかずっと考えていました。 A_{i,j} が 0, 1 の場合、A　は無向グラフの接続行列となります。i,j がつながっている場合は A_{i,j} = 1となり

rokujyouhitoma 2015/05/03

Espresso
NLP

リンク

TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

rokujyouhitoma 2012/06/15

分かち書き

TinySegmenter

リンク

Taku Kudo

Profile 名前工藤拓 (くどうたく) 職業研究者写真お台場にてルスツにて暇つぶしウクレレ, スノーボード, ジャグリング, ダーツ Research Topics 統計的自然言語処理形態素解析テキストチャンキング統計的統語解析統計的係り受け解析機械学習 Support Vector Machines Boosting Maximal Margine Classifiers データマイニング半構造化データの高速マイニングテキストマイニング評判分析 Software MeCab (次世代形態素解析エンジン) CaboCha (係り受け解析器) CRF++ (汎用 Tagger,Chunker based on CRF) YamCha (汎用 Tagger,Chunker based on SVM) TinySVM (SVM 学習パッケージ) Tin

rokujyouhitoma 2011/06/22

NLP
Google

リンク

きまぐれ日記: Bloom filter

最近 Bloom filter というアルゴリズムを知りました。1970年に考案された古いアルゴリズムです。 http://en.wikipedia.org/wiki/Bloom_filter http://www.cs.wisc.edu/~cao/papers/summary-cache/node8.html#SECTION00053000000000000000 http://www.perl.com/pub/a/2004/04/08/bloom_filters.html Bloom filter は、キー(通常は文字列)の存在のみをコンパクトなデータ構造で高速に判定するためのアルゴリズムです。キーの存在のチェックでしたら通常の hash でいいのですが、コンパクトになるとは限りません。 Bloom filter は "false positive"、つまり「キーが存在していないのに存

rokujyouhitoma 2011/03/05

BloomFilter

リンク

はてなブックマーク

タグ

ブックマーク / chasen.org/~taku (5)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス