タグ

形態素解析と言語処理に関するtorutoのブックマーク (2)

  • [を] 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード

  • Rosette形態素解析システム

    トークン化や品詞のタグづけ、基形化、複合語分解、漢字の読みなどの機能で高度なテキスト解析を実現する基的な言語解析モジュール 製品評価版お問い合わせフォーム 高精度な言語解析を実現 Rosette Base Linguictics (基言語解析)はポータブルで高性能なテキスト分節(分かち書き)エンジンです。10年以上にわたり、多くのWeb検索エンジンやエンタープライズ・サーチのインデックス生成にトークナイザとして利用されています。 テキストを単語(トークン)に分割し、トークンに品詞を付与するとともに、活用語を正規化して基形(辞書に載っている標準形)を出力します。さらに、複合名詞をその構成要素に分解したり、読みを出力する機能もあります。独自のアルゴリズムと約50万語の辞書(* 随時更新)でテキストを的確に分節します。日語の外来語由来のカタカナ文字列の分かち書きも適切に行えるよう設計さ

    Rosette形態素解析システム
  • 1