タグ

Pythonとmecabに関するni66lingのブックマーク (2)

  • Homebrew + virtualenv 環境でMeCabのインストール - さりんじゃーのプログラミング日記

    普段良く使うモジュールのMeCabのインストール。 Homebrewもvirutalenvも最近使い始めたばかりなので、自分用メモとして記録。 virtualenv環境の作成 普段はNormalという環境を作って、これを使うことにする。 $ mkvirtualenv Normal $ brew search mecab mecab mecab-ipadic Homebrewにあった。 $ brew install mecab mecab-ipadic $ mecab これでこの時点の最新版である0.994とIPA辞書がインストールできた。動作確認。 $ mecab すもももももももものうち すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ

  • Mecab Pythonを使ったTF・IDFによるWikipediaの重要単語抽出 - Y's note

    入門 自然言語処理 作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11メディア: 大型購入: 20人 クリック: 639回この商品を含むブログ (44件) を見る TF・IDF計算 自然言語処理の勉強としてTF・IDFによる重要単語の抽出をwikipediaのデータに対して試してみます。TF・IDFを一言でまとめると、とある単語の重要度を出現頻度から計算する手法です。計算結果は重みを表します。TFは単語の出現数(Term Frequency)、IDFは総文書数 / 単語が出現する文書の総数の対数(Inverted Document Frequency)、TFIDFはその積になります。数式にすると以下のようになりますが、Webを検索してみると人によって計算の仕方が異

    Mecab Pythonを使ったTF・IDFによるWikipediaの重要単語抽出 - Y's note
  • 1