[B! algorithm][Algorithm][nlp] [2ページ] yokochieのブックマーク

yokochie id:yokochie

algorithmとAlgorithmとnlpに関するyokochieのブックマーク (23)

手軽にTF/IDFを計算するモジュール - download_takeshi’s diary
情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。 TF/IDFアルゴリズムのくわしい解説はこことかここを見てください。今回はこのTF/IDFの計算を「簡単」に実現するためのperlモジュールをCPANに上げましたので、ご紹介します。なまえはLingua::JA::TFIDFといいます。 Lingua::JA::TFIDF - TF/IDF calculator based on MeCab. http://search.cpan.org/~miki/Lingua-JA-TFIDF TF/IDF実装の困りどころ TF/IDFの実装を試みた方であればわかると思うのですが、実際にやろうとすると、TF（Term Frequency）の計算はなんら難しくありませんが、IDF（Inve
yokochie 2008/11/10
cpan

algorithm

module

perl

nlp
リンク
Javascriptでdiffる ( with 形態素解析 ) (nakatani @ cybozu labs)
Javascript で diff というのはいくつか試された例はあるようですが、まだこれといった決定打は出ていない様子です。実は diff は見た目ほど軽い処理ではないので、Javascript にやらせるのはこれが結構大変…… diff の計算量は、おおざっぱに言うと比較対象の要素数の二乗に比例し（実際にはそれより小さくすることができるのですが、まあ話のイメージとして）、かつメモリを大量に消費するので、バッチ的な処理に最適化されていない Javascript にはどうしても荷が重いものとなってしまいます。比較対象の要素数を減らせば当然計算量は減りますが、行単位で比較してもあまり嬉しくない（わざわざ Javascript で処理するということは自然文が対象と思って良いでしょう）。最小の文字単位だとギブアップ。ということは形態素解析で分かち書きして、単語単位で diff するのが J
yokochie 2007/07/03
diff

algorithm

greasemonkey

javascript

nlp

programming
リンク
Suffix Array - odz buffer
Suffix Array ということで、軽く言及。もう一つの難点は、そろそろトウが立っていること。アルゴリズムというのは比較的経年変化の少ない分野ではあるけれども、それでもその後見つかった新たなアルゴリズムだって知りたい。たとえばSuffix Arrayとかは、分かりやすくて使い易い、もっと知られてもいいアルゴリズムなのに、まだこの手の本に取り上げられた例というのがありません。 Suffix Array って名前で proceedings に載ったのが1990年*1、Journal に載ったのが1993年で*2 、Mastering Algorithm with Perl の出版が1999年だから、新しいとか古いとかそういう問題ではないと思うがなぁ。まぁ、アルゴリズムの教科書レベルの本で Suffix Array を取り扱ったとしても、Suffix Array の構築コストは結構高いし
yokochie 2006/11/05
algorithm

nlp
リンク
前のページ 1 2

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx