タグ

mecabに関するnextbigthingのブックマーク (6)

  • MeCabの辞書をカスタマイズする | mwSoft

    概要 MeCab0.994で再学習機能が入ったので、その辺りも含めてMeCabの辞書カスタマイズ方法を洗ってみる。 今回取り扱うのは、CSV形式で新しい単語の情報を記述して辞書を生成(mecab-dict-index)する方法と、文章の解析結果を用意してそれを利用して学習(mecab-cost-train)する方法。 Linuxで実行。Windowsは知らない。 単語追加用のCSVファイルを作成する まずはCSVファイルを手書きして、MeCabの辞書に新しい単語を追加してみる。 やり方は公式サイトに載っている。 今回は例として「アメリカの大統領の名前くらい登録しておきたいよね」ということでバラクとオバマという2つの固有名詞を追加してみる。両単語はIPA辞書では未知語になっている。 $ echo "バラク・オバマ" | mecab -U"%M\t%H\t未知語\n" バラク 名詞,一般,*,

  • 余暇活動日記 MeCabのインストール(研究室編)

    メモがわりに MeCab + Python のインストールで引っかかったところを書く。 状況:研究室のサーバのローカル環境にインストールする。suになれる権限はない。 1.MeCabのインストール とりあえずmecab-0.98を持ってくる。 wget http://sourceforge.net/projects/mecab/files/mecab/0.98/mecab-0.98.tar.gz そして、インストール ./configure --prefix=自分のローカル --with-charset=utf8 を打ち込む。 「--prefix=自分のローカル」がないと、勝手に/usr/local/のほうにインストールされることになって、もちろんそんな権限はないのでエラーが起きる。 makeのときに、 make[2]: `all' に対して行うべき事はありません。 make instal

  • NAL研卒業研究ノート:: rayに共起頻度計測のための環境設定

  • 専門用語抽出するための TF-IDF をPython で書いた - /Users/mizchi/workplace/

    DBCLSでやってる自然言語処理の話。 TF * IDFは ある単語が、その単語を含む文書において、全体の文書と比較しながら「どれぐらい非凡か」ということを示す。 スコア = (ドキュメントに含まれる特定の単語の数/ドキュメントに含まれる全単語数) / log(全ドキュメント数 / 特定の単語を含むドキュメント数) 専門文書に含まれる専門用語を、青空文庫のログで比較して専門用語のスコアを高くとれるか、ということに使う。 まだ単語の抽出が済んでないので、スコアはあとで。 要: MeCabとMeCabのPythonバインディング #/usr/bin/python #-*- encoding:utf-8 -*- import os import MeCab from sys import argv from math import log from glob import glob mecab

    専門用語抽出するための TF-IDF をPython で書いた - /Users/mizchi/workplace/
  • MeCabとPythonで遊んでみたメモ2 - Λάδι Βιώσας

    形態素解析で何かおもしろいネタはないかと探していたところ、以下のページを見つけました。 TF-IDFと検索APIでキーワード抽出 http://nais.to/~yto/clog/2005-10-12-1.html キーワード抽出アルゴリズムのTF-IDFは、コーパスという辞書ファイルが必要で試してみたいけど面倒だなあ。。。と思っていたわけですが、検索エンジンに頼れば辞書の必要なし!!なるへそ賢い! で、Pythonで書いてみた。ソースはこれ。 自分のPCには青空文庫とかのテキスト形式の小説がたくさん保存してあるので、このスクリプトを使ってこれらの小説のキーワードを抽出してみることにします。 あ、でも、勝手に小説解析とかしちゃっうと著作権とかやばかったりするかもしれないので、小説のタイトル等は伏せさせて頂きます。ご了承ください。 以下は、解析した結果です。 単語 TF-IDF 露出 174

    MeCabとPythonで遊んでみたメモ2 - Λάδι Βιώσας
  • Pythonでのキーワード抽出実装

    初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。 分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。 アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。 実行結果サンプル たとえば、こんなページの文をテキストフ

  • 1