タグ

mecabとperlに関するkiryuuのブックマーク (3)

  • 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

    形態素解析と検索APIとTF-IDFでキーワード抽出
  • MeCabをPerlから使う

    MeCabをPerlから使う 2006-02-25-4 [Programming][NLP] NAISTの後輩のスーパーハカー taku-ku 氏作の形態素解析エンジン MeCab。 解析スピードは ChaSen より速いし、なにより今もメンテされてるのが 素晴らしい。20%ルール!? Perlモジュールもあって、しかも使い勝手も良いので Text::ChaSen [2006-02-24-3]は止めて、こっちを使っていこうかと。 MeCab: Yet Another Part-of-Speech and Morphological Analyzer <http://mecab.sourceforge.jp/> 以下を取ってきてすんなりインストール。何のバッドノウハウもなし。 - mecab-0.90rc9.tar.gz - mecab-ipadic-2.7.0-20051110.tar.g

    MeCabをPerlから使う
  • blog.katsuma.tv

    文章中のキーワード抽出を行いたくなっていろいろ調べていて、次の組み合わせで実現することができました。 Mecab Lingua::JA::Summarize Pecl/Perl Mecabは文書の形態素解析に。Lingua::JA::Summarizeはサイボウズラボ奥さんのキーワード抽出CPANモジュール。これをCakePHPに組み込みたかったのでPeclのPerlライブラリ(PHPからPerlのコードをダイレクトに呼べる)。導入も特に難しくないので、その導入メモを残しておきます。 Mecab Fedora系Linuxだとyumで辞書ファイルも一緒にさっくりインストールできます。Perlのモジュールも入れておきます。 sudo yum -y install mecab\* sudo yum -y install perl-mecab\* Lingua::JA::Summarize CPA

    kiryuu
    kiryuu 2009/06/06
    キーワード抽出
  • 1