タグ

ChaSenに関するtsupoのブックマーク (2)

  • Amazon Search のコンテンツ解析ロジックをリファクタリング中

    Amazon Search サービスを開始してから約2年になりました。開始始めは 2004 年 03 月 07 日らしいんですが、自分でも覚えていません・・・ 細かい修正を含めるて数えてみたら、52回目のバージョンアップになりますが、サーバの計算力も Pentium 4 から Athlon 64 X2 と大幅に向上したこともあり、コンテンツ解析部分の計算量を増やして、より適合度の高い関連商品が選択されるようにしてみました。 前より良くなってますよね? (なってなかったらごめんなさい・・・) ※新しいエントリーもしくは古いキャッシュが消えるまでお待ち頂いてからご確認ください。 さて、計算量を増やす代わりに、形態素解析を ChaSen (茶筌)から MeCab に変更しました。MeCab は ChaSen の3〜4倍程度は高速に動作するので、全体としては速度的に速くなっているかもしれません。

    tsupo
    tsupo 2006/02/28
    MeCab 0.9 系は、0.8 系以前とは根本的に設計自身が違うようでして、かなり満足のいく分かち書きをしてくれるようになりました。
  • 汎用連想計算エンジン GETA ファミリー

    汎用連想計算エンジンGETA ファミリー   公開 Siteこのページでは, 汎用連想計算エンジンGETA を紹介しています. GETA の実装はいくつかありますが, そのうち公開されているものは現在 2 つあります. 汎用連想計算エンジンGETA ファミリー   公開HP初代 GETA はこちらから配布されています. 最新版は GETA3.2u です.GETAssocGETAssoc は, もうひとつの GETA の実装です. Last Modified Tue Jul 21 14:12 JST 2009

    tsupo
    tsupo 2005/06/02
    文書間および単語間の類似度を内積型メジャーで高速計算するツールです。
  • 1