rytichのブックマーク - はてなブックマーク

きまぐれ日記: 情報抽出アルゴリズム Espresso 最終章
Espresso を飲みながらさらに Espresso を考えていました。 r_instance = A^n * r_instance_0 となるのは間違いないと思います。A は P * P^{T}、さらに P = 1/|I||P| * pmi(i, p)/ maxpmi です。 A は、インスタンスどうしの類似度を表現した正方対称行列です。A_{i,j} はインスタンス i, j の類似度です。類似度は、パターン個数次元からなるベクトルの内積で、各次元は pmi となります。この形だと、r_instanc は r_instance_0 できまるので、初期値に依存してるように思えますが、A^n がいったいどういう意味を持つのかずっと考えていました。 A_{i,j} が 0, 1 の場合、A　は無向グラフの接続行列となります。i,j がつながっている場合は A_{i,j} = 1となり
rytich 2007/10/16
自然言語処理情報抽出追記：http://chasen.org/~taku/blog/archives/2007/10/espresso.html

アルゴリズム
リンク
Ajax を使った手書き文字認識
Ajax を使った手書き文字認識です。下のキャンバスにマウスで文字を描いてみてください。デモ
rytich 2007/09/12
ajax

画像
リンク
きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる
MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま
rytich 2007/06/23
MeCab

開発
リンク
きまぐれ日記: MECAPIを182倍高速にしてみた
MeCabのWebService, MECAPI を182倍高速にして<みました。(2.68qps → 488qps) http://api.chasen.org/mecapi/ - Perlによる実装はやめて、完全に C++ で書き直し - CGI ではなくて、C++ による自作 HTTPServer - mecab のプロセスを prefork することで永続化たつをさんのオリジナルMECAPIの機能はまだ完全に実装しておらず、基本的な機能しか提供しておりませんが、随時サポートしていきたいと思います。補足:　実際はネットワークのレイテンシーがあるので、外部ホストから計測すると体感としては、10倍程度の高速化だと思います。オリジナルMECAPI: Server Software: Apache/2.0.53 Server Hostname: chasen.org Server P
rytich 2007/05/02
MeCab 形態素解析

API
リンク
1

はてなブックマーク

タグ

ブックマーク / chasen.org/~taku (4)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / chasen.org/~taku (4)

きまぐれ日記: 情報抽出アルゴリズム Espresso 最終章

Ajax を使った手書き文字認識

きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

きまぐれ日記: MECAPIを182倍高速にしてみた

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス