タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

algorithmとAlgorithmとnlpに関するyokochieのブックマーク (23)

  • 手軽にTF/IDFを計算するモジュール - download_takeshi’s diary

    情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。 ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。 TF/IDFアルゴリズムのくわしい解説はこことかここを見てください。 今回はこのTF/IDFの計算を「簡単」に実現するためのperlモジュールをCPANに上げましたので、ご紹介します。なまえはLingua::JA::TFIDFといいます。 Lingua::JA::TFIDF - TF/IDF calculator based on MeCab. http://search.cpan.org/~miki/Lingua-JA-TFIDF TF/IDF実装の困りどころ TF/IDFの実装を試みた方であればわかると思うのですが、実際にやろうとすると、TF(Term Frequency)の計算はなんら難しくありませんが、IDF(Inve

    手軽にTF/IDFを計算するモジュール - download_takeshi’s diary
  • Javascriptでdiffる ( with 形態素解析 ) (nakatani @ cybozu labs)

    Javascript で diff というのはいくつか試された例はあるようですが、まだこれといった決定打は出ていない様子です。 実は diff は見た目ほど軽い処理ではないので、Javascript にやらせるのはこれが結構大変…… diff の計算量は、おおざっぱに言うと比較対象の要素数の二乗に比例し(実際にはそれより小さくすることができるのですが、まあ話のイメージとして)、かつメモリを大量に消費するので、バッチ的な処理に最適化されていない Javascript にはどうしても荷が重いものとなってしまいます。 比較対象の要素数を減らせば当然計算量は減りますが、行単位で比較してもあまり嬉しくない(わざわざ Javascript で処理するということは自然文が対象と思って良いでしょう)。最小の文字単位だとギブアップ。 ということは形態素解析で分かち書きして、単語単位で diff するのが J

  • Suffix Array - odz buffer

    Suffix Array ということで、軽く言及。 もう一つの難点は、そろそろトウが立っていること。アルゴリズムというのは比較的経年変化の少ない分野ではあるけれども、それでもその後見つかった新たなアルゴリズムだって知りたい。たとえばSuffix Arrayとかは、分かりやすくて使い易い、もっと知られてもいいアルゴリズムなのに、まだこの手のに取り上げられた例というのがありません。 Suffix Array って名前で proceedings に載ったのが1990年*1、Journal に載ったのが1993年で*2 、Mastering Algorithm with Perl の出版が1999年だから、新しいとか古いとかそういう問題ではないと思うがなぁ。 まぁ、アルゴリズムの教科書レベルので Suffix Array を取り扱ったとしても、Suffix Array の構築コストは結構高いし

    Suffix Array - odz buffer