lockcoleのブックマーク - はてなブックマーク

きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま

lockcole 2007/06/26

Yahoo!形態素解析サービスで得られた出力をMeCabの学習データに流し込むことで，「それなりに正しく解析できている」と評する辞書ができあがる。さすがに綺麗な連携。ライセンス問題は微妙。

リンク

きまぐれ日記: Thinkpad と無線LAN ユーテリィティー

Thinkpad X60s を購入しました。今まで使っていた Let's note R4を手放すことになったので、先月くらいから何を買おうか考えていたのですが、最後まで T4 と悩んだあげく X60s に決まりました。バッテリの持ちは T4 に比べれば比較にならないほど短いですが、メモリが2GBまで積めるのと、なんといても Core Duo というのが最大の魅力です。指紋認証も使ってみるとなかなか便利です。さて、Thinkpad にはいわゆるバンドルソフトの類はほとんど付属していません。ただし、レノボ製の Thinkpad ユティリティーがインストールされています。が、何のツールなのかまったくわからないのです。 - EasyEject ユーティリティー - バックグラウンドプログラムマネージャー - プレゼンテーションディレクター - プロダクティビティーセンター - System Mi

lockcole 2006/03/07

Thinkpad X60s の無線LANユーティリティ（IBM独自ツール）が使いにくいから無効にして，Windows XP標準のインタフェースが利用できるようにする設定方法。

リンク

きまぐれ日記: MeCab 0.90 だけをつかって Auto Link

lockcole 2006/01/10

おお，これ面白そう。なんかこれでコード書いてみようかな。

リンク

きまぐれ日記: Bloom filter

最近 Bloom filter というアルゴリズムを知りました。1970年に考案された古いアルゴリズムです。 http://en.wikipedia.org/wiki/Bloom_filter http://www.cs.wisc.edu/~cao/papers/summary-cache/node8.html#SECTION00053000000000000000 http://www.perl.com/pub/a/2004/04/08/bloom_filters.html Bloom filter は、キー(通常は文字列)の存在のみをコンパクトなデータ構造で高速に判定するためのアルゴリズムです。キーの存在のチェックでしたら通常の hash でいいのですが、コンパクトになるとは限りません。 Bloom filter は "false positive"、つまり「キーが存在していないのに存

lockcole 2006/01/07

「あるかもしれない」を許容するアルゴリズム。「確実に無い」を排除していく。以前に勉強したけど，ここの説明は初めての人でも分かりやすい。

アルゴリズム

リンク

きまぐれ日記: キーワード抽出: tf-idf の意味づけ

単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax

lockcole 2005/11/07

数学的にTF-IDFの意味を明らかに

リンク

きまぐれ日記: タグとマルチラベル問題と機械学習

ネット上のサービスを見ていると、メールなりWebページをある一意のカテゴリに分類するという整理法から、タグ（ラベル）をつけるという整理法に変わってきているようです。代表的な例は Gmail。フォルダという概念はなくメールにラベルを付与していきます。私が良く使う方法は、「リマインダー」のラベル（メールの重要さという観点）と「内容」のラベルです。二つはそれぞれ独立した分類方法ですが、フォルダだと同居できません。他の例だと「はてなブックマーク」があります。ユーザが任意のタグを付与することができます。機械学習の言葉を使えば、従来のフォルダは「シングルラベル」の分類問題、後者のタグは「マルチラベル」分類問題となります。文字どおり、前者はインスタンスに対し1つのラベルのみを付与する問題、後者は複数のラベルを付与する問題です。さて、機械学習の分野でマルチラベル問題はどう進展してるのでしょうか？実際