タグ

nlpに関するallegroのブックマーク (3)

  • 和布蕪他インストール - RとLinuxと...

    Linux あるいは Mac OS X でMeCab(和布蕪)をインストール. さらに CaBoCha (南瓜,カボチャ)をインストール.こっちは、結構大変 _ MeCab?(和布蕪) MeCab? 和布蕪 http://mecab.sourceforge.net/ をインストール tar zxf mecab-0.9+.tar.gz cd mecab-0.9+ ./configure --with-charset=utf8 make sudo make install sudo ldconfig sudo ldconfig を実行し,libmecab.so を登録しておく. 和布蕪 MecaB の辞書 tar zxf mecab-ipadic-2.7.0-20070****.tar.gz cd mecab-ipadic-2.7.0-20070**** ./configure --with

  • 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

    形態素解析と検索APIとTF-IDFでキーワード抽出
    allegro
    allegro 2007/03/12
  • TF・IDF - 人工知能に関する断創録

    文章から重要なキーワードを取り出すときの指標となるTF・IDFのプログラムを書いてみた。教科書とかによく出てくるけど試してみたのは初めて。対象としたのは、このブログの509記事。形態素解析にはChaSenを用いた。対象としたのは名詞と未知語。たとえば、このブログの1つ前のエントリ Google AI Google人工知能を構築しようとしているらしい。さすが天下のGoogle様といったところか。そのうちGoogle AIっていう名前でリリースされたりして(笑) どんなものを考えているのか興味がある。初めて聞いたのだけれど何か文献が出ているのかな? Googleでは実際に大規模な人工知能を構築しようという試みに取り組んでいるチームがある。人々が考えるほど遠い未来の話ではない。(Page氏)からTF・IDFを計算し、上位10個のキーワードを抽出してみたところ 構築 天下 リリース 様 チーム

    TF・IDF - 人工知能に関する断創録
    allegro
    allegro 2007/03/12
  • 1