[B! mecab] griffin-stewieのブックマーク

griffin-stewie id:griffin-stewie

mecabに関するgriffin-stewieのブックマーク (4)

mecab での形態素解析を試してみました - その後のその後
https://github.com/FLCLjp/iPhone-libmecab こちらに上げられている mecab を用いて形態素解析を行うサンプルアプリで、どういう結果がでるのか試してみました。入力文1:ゴルフに行ってきた入力文2:ゴルフ行ってきたうーん、微妙だ。。キーワード抽出的な使い方ができればと思ったのですが、助詞を抜いただけで「ゴルフ行」となるのでは精度的に厳しいものがあります。どっかパラメータいじって調整の余地はあるのか、他にも使えそうな情報がとれるのか、調べてみました。こちらの本家のページによると、mecabから形態素解析結果として得られる mecab_node_t 構造体の中身は、以下のようになっています。 struct mecab_node_t *prev; // 一つ前の形態素へのポインタ struct mecab_node_t *next; // 一つ
griffin-stewie 2011/12/29
iOS

mecab

development
リンク
きまぐれ日記: Mac OS X Leopard に「標準で」インストールされている MeCabを使ってみる
Mac OS X Leopard の Spotlight に MeCab が使われているらしいという情報を聞いたので、実際に深追いしてみました。いとも簡単に /usr/lib/libmecab* , /usr/include/mecab.h と /usr/lib/mecab/dic/apple/{ja,tc,sc} というディレクトリを発見しました。ts, sc は traditional/simplified Chinese (繁体字/簡体字) の略で、中国語の辞書だと推察されます。辞書のディレクトリはさらに dic/apple/ja/{LE,BE} という風に、エンディアンごとに分かれています。MeCabの辞書はエンディアン依存なので、こうするしかないのかもしれません。さて、この辞書を使って、UTF8の文字列を流し込んでみたのですが、うまいこと解析してくれません。MeCabのバイナ
griffin-stewie 2008/07/12
mac

mecab
リンク
きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる
MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま
griffin-stewie 2007/06/23
形態素解析

自然言語処理

yahoo

mecab
リンク
きまぐれ日記: ルー語変換を MeCab だけで実現
巷で話題のルー語変換．周りにこういうしゃべり方をする人がいるからかもしれませんが，爆笑しました中身は，MeCab -> EDICT -> Bilingual Emacspeak だそうです．単純な単語置換なので，MeCab を汎用テキスト変換ツールとして利用すればまったく同じことが MeCab だけで実現できます．やってることは単純で, MeCab の辞書の品詞フィールドをルー語にした辞書を作るだけです．対象のルー語がない場合は単語そのものを品詞に設定します．通常は「入力文字列 -> 品詞列」の変換が行われます．上記のような辞書を作ると，品詞の部分がすべてルー語に置き換わって「入力文字列 -> ルー語文字列」の変換が実現されます．しかも単語のつながりやすさや，出現しやすさは上記のような辞書を作っても CSV カラムの 2,3,4 カラム目に残っているので，原理的には M
griffin-stewie 2007/04/24
mecab

形態素解析

特徴語抽出
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx