タグ

mecabに関するAinHandのブックマーク (4)

  • TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記

    以前にk-means++をPerlで書いたのですが、実際に試すデータがなかったのでそのまま放置してました。せっかくなので大きなデータで試してみたいので、今回は下準備としてwikipediaの各キーワードに対し、その特徴を表すデータを抽出したいと思います。そして今回作ったデータを使って、k-meansや階層的クラスタリングなど他の手法をいずれ試してみる予定です。 今回は特徴量としてベタにTFIDFを使うこととします。TFIDFについては、下記のページが詳しいためそちらをご参照ください。 形態素解析と検索APIとTF-IDFでキーワード抽出 tf-idf - Wikipedia まずWikipediaのデータをダウンロードしてきます。以下のページから、「jawiki-latest-pages-articles.xml.bz2」をダウンロードしてください。 http://download.wik

    TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記
  • マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。

    そもそも、マルコフ連鎖とは何なのか?全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。 しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ?コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った! 作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済み マルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。(素晴らしい情報に感謝です!) MeCabを使ってマルコフ連鎖 一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ

    マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。
  • MeCab 0.92 を使ってみる (1) - 傀儡師の館.Python:楽天ブログ

    2006.07.15 MeCab 0.92 を使ってみる (1) カテゴリ:ことばの処理 久々に MeCab を使って遊ぶことにした。最新のバージョン 0.92 をダウンロードしてインストール。その前にインストールしてあった、ちょっと古めのバージョン 0.90rc8 と比較してみる。形態素解析結果の違いを見てみると、何気にかなりの差分が出る。未知語で固有名詞に倒していたものが名詞に倒すようになったとかあるのかな。例えば、「ヒューレット・パッカード」を新しくできた -x オプションを付けて「mecab -x UNKNOWN」で解析してみると、 ヒューレット・パッカード UNKNOWN と解析される。辞書に登録されているかどうかは、辞書作成用の csv ファイルを検索しなくても、こうしてみれば簡単にチェックできるようになった。地味だが案外嬉しい。 以前のバージョンとの違いで気になるところを見て

    MeCab 0.92 を使ってみる (1) - 傀儡師の館.Python:楽天ブログ
  • テキスト・マイニング/MacでMeCabを使う - とうごろうぃき

    2014-07-27 (日) 07:52:15 (3670d) | Topic path: Top / テキスト・マイニング / MacでMeCabを使う はじめに † 「MeCab」は京都大学とNTTコミュニケーション科学基礎研究所で共同開発された形態素解析ツールです. 「すもももももももものうち」という文を「すもも/も/もも/も/もも/の/うち」というように分かち書きし,それぞれの品詞を調べることができます. Mac OS X 10.9とMeCab 0.996とNAIST-jdic 0.6.3b-20111013で確認しました. ↑ 必要なもの † 辞書 make gcc MeCabには辞書が付いていません——というか,自分で解析用の辞書を用意できます. 一般的な辞書で構わない人は,MaCabと一緒に配布されている辞書をダウンロードして使うことができます. ここでは,MeCabのサイト

  • 1