[B! Mecab] okanesanのブックマーク

きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま

okanesan 2008/12/28

リンク

「Yahoo!の形態素解析をMeCabで無理やり再現してみる」を試してみて - 傀儡師の館.Python：楽天ブログ

2007.08.20 「Yahoo!の形態素解析をMeCabで無理やり再現してみる」を試してみてカテゴリ：ことばの処理 Yahoo!の形態素解析をMeCabで無理やり再現してみるを読む。 MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 学習させるときには、辞書と、正解データを用意しなきゃならない。これが面倒だから、なかなか自作の辞書を作る気にならない。Wikipedia のデータをダウンロードすれば、大量のテキスト文章は得られるけれども、正解出力を手作業で作るのは大変だし、元辞書も作らなきゃならないから、不可能に近い。じゃわ、正解出力をちゃんと手作業で作るのではなくて、Yahoo! API の日本語形態素解析 Webサービスを使って得られた解析結果を擬似的

okanesan 2008/12/28

Mecab

リンク

MeCab: オリジナル辞書/コーパスからのパラメータ推定

$Id: learn.html 161 2008-02-03 09:58:46Z taku-ku $; 概要学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れデータフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備学習用バイナリ辞書の作成 CRF パラメータの学習配布用辞書の作成解析用バイナリ辞書の作成評価それぞれ順に説明

okanesan 2008/12/28

Mecab

リンク

MeCabで住所抽出 (OKILab.jp開発日記)

「MeCab 0.90 だけをつかって Auto Link」を参考に、MeCabを使って住所抽出してみます。元データとして国土交通省国土計画局国土情報整備室の街区レベル位置参照情報を利用します。ダウンロードページから、今回は平成18年度版の大阪府全域のデータ(27000-05.1a.zip)をダウンロードしました。 $unzip 27000-05.1a.zip Archive: 27000-05.1a.zip Length Date Time Name -------- ---- ---- ---- 14907 04-10-07 16:07 md_27_2006.xml 24563015 06-11-07 21:01 27_2006.csv 3325 01-22-07 20:00 format_2006.html -------- ------- 24581247 3 files $he

okanesan 2008/12/21

Mecab

リンク

RMeCab - RとLinuxと...

テキストマイニングのためのツール: データ解析・グラフィックス環境 R から日本語形態素解析ソフト和布蕪( MeCab )を呼び出して使うインターフェイス 2008年 09月2日 RMeCab0.61 でとりあえず安定版とする R はここから，自分のOSにあったファイルをダウンロードしてください．例えばWindows版なら，[Windows]->[base]とクリックし，R-2.*.*-win32.exeをダウンロードします．後はダブルクリックを繰り返せばインストールできます．なお、Windows版の場合は起動直後に日本語の設定をしてください。メニューの [編集]->[GUIプリファレンス]->[Font]　で MS Gothic を選び [save] を押して、保存先はデフォルトそのままにマイドキュメントに保存します。その後は [OK] を押して操作を続行します。なおRを終了させる際

okanesan 2008/12/21

リンク

[メモ]Pythonによる英字の半角全角変換

↓これもっと簡潔できれいな書き方はないものだろうか。 from itertools import izip #半角英字->全角英字変換 HAN_CHARS = map(chr, range(ord('A'), ord('Z')+1) + range(ord('a'), ord('z')+1)) ZEN_CHARS = map(lambda x: unichr(0xff00 + x),range(0x21, 0x21+ord('Z')-ord('A')+1) + range(0x41, 0x41+ord('Z')-ord('A')+1)) def han2zen(word): """ Unicodeで与えられた文字列の半角英字を全角英字に変換する。 """ for c, cc in izip(HAN_CHARS, ZEN_CHARS): word = word.replace(c, cc)

okanesan 2008/01/14

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

Mecabに関するokanesanのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス