[B! mecab] nextbigthingのブックマーク

MeCabの辞書をカスタマイズする | mwSoft

概要 MeCab0.994で再学習機能が入ったので、その辺りも含めてMeCabの辞書カスタマイズ方法を洗ってみる。今回取り扱うのは、CSV形式で新しい単語の情報を記述して辞書を生成（mecab-dict-index）する方法と、文章の解析結果を用意してそれを利用して学習（mecab-cost-train）する方法。 Linuxで実行。Windowsは知らない。単語追加用のCSVファイルを作成するまずはCSVファイルを手書きして、MeCabの辞書に新しい単語を追加してみる。やり方は公式サイトに載っている。今回は例として「アメリカの大統領の名前くらい登録しておきたいよね」ということでバラクとオバマという2つの固有名詞を追加してみる。両単語はIPA辞書では未知語になっている。 $ echo "バラク・オバマ" | mecab -U"%M\t%H\t未知語\n" バラク名詞,一般,*,

nextbigthing 2013/02/18

mecab

リンク

余暇活動日記 MeCabのインストール（研究室編）

メモがわりに MeCab + Python のインストールで引っかかったところを書く。状況：研究室のサーバのローカル環境にインストールする。suになれる権限はない。１．MeCabのインストールとりあえずmecab-0.98を持ってくる。 wget http://sourceforge.net/projects/mecab/files/mecab/0.98/mecab-0.98.tar.gz そして、インストール ./configure --prefix=自分のローカル --with-charset=utf8 を打ち込む。「--prefix=自分のローカル」がないと、勝手に/usr/local/のほうにインストールされることになって、もちろんそんな権限はないのでエラーが起きる。 makeのときに、 make[2]: `all' に対して行うべき事はありません。 make instal

nextbigthing 2012/05/25

python
mecab

リンク

NAL研卒業研究ノート:: rayに共起頻度計測のための環境設定

nextbigthing 2012/05/25

python
mecab

リンク

専門用語抽出するための TF-IDF をPython で書いた - /Users/mizchi/workplace/

DBCLSでやってる自然言語処理の話。 TF * IDFはある単語が、その単語を含む文書において、全体の文書と比較しながら「どれぐらい非凡か」ということを示す。スコア = (ドキュメントに含まれる特定の単語の数/ドキュメントに含まれる全単語数) / log(全ドキュメント数 / 特定の単語を含むドキュメント数) 専門文書に含まれる専門用語を、青空文庫のログで比較して専門用語のスコアを高くとれるか、ということに使う。まだ単語の抽出が済んでないので、スコアはあとで。要: MeCabとMeCabのPythonバインディング #/usr/bin/python #-*- encoding:utf-8 -*- import os import MeCab from sys import argv from math import log from glob import glob mecab

nextbigthing 2011/08/06

mecab
python

リンク

MeCabとPythonで遊んでみたメモ２ - Λάδι Βιώσας

形態素解析で何かおもしろいネタはないかと探していたところ、以下のページを見つけました。 TF-IDFと検索APIでキーワード抽出 http://nais.to/~yto/clog/2005-10-12-1.html キーワード抽出アルゴリズムのTF-IDFは、コーパスという辞書ファイルが必要で試してみたいけど面倒だなあ。。。と思っていたわけですが、検索エンジンに頼れば辞書の必要なし！！なるへそ賢い！で、Pythonで書いてみた。ソースはこれ。自分のPCには青空文庫とかのテキスト形式の小説がたくさん保存してあるので、このスクリプトを使ってこれらの小説のキーワードを抽出してみることにします。あ、でも、勝手に小説解析とかしちゃっうと著作権とかやばかったりするかもしれないので、小説のタイトル等は伏せさせて頂きます。ご了承ください。以下は、解析した結果です。単語 TF-IDF 露出 174

nextbigthing 2011/08/03

python
mecab

リンク

Pythonでのキーワード抽出実装

初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯本紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。実行結果サンプルたとえば、こんなページの本文をテキストフ

nextbigthing 2011/07/22

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

mecabに関するnextbigthingのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス