[B! 形態素解析][mecab] nodatのブックマーク

nodat id:nodat

形態素解析とmecabに関するnodatのブックマーク (2)

Taku Kudo
Profile 名前工藤拓 (くどうたく) 職業研究者写真お台場にてルスツにて暇つぶしウクレレ, スノーボード, ジャグリング, ダーツ Research Topics 統計的自然言語処理形態素解析テキストチャンキング統計的統語解析統計的係り受け解析機械学習 Support Vector Machines Boosting Maximal Margine Classifiers データマイニング半構造化データの高速マイニングテキストマイニング評判分析 Software MeCab (次世代形態素解析エンジン) CaboCha (係り受け解析器) CRF++ (汎用 Tagger,Chunker based on CRF) YamCha (汎用 Tagger,Chunker based on SVM) TinySVM (SVM 学習パッケージ) Tin
nodat 2013/07/23
形態素解析

mecab
リンク
livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク
突然ですが，mecabの辞書 (mecab-ipadic) をデフォルトのまま使って，mecab意外と使えねぇとか文句言ってる悪い子はおらんかね？ mecab-ipadic は比較的お行儀のよい日本語をベースに作られているので，そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し，学習させるといった手法を使うのが正攻法だと思いますが，とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。人間の話す言語には，動詞の語幹や名詞には日々新しく語彙が増えるけど，助詞や活用のルールは簡単には変化しない，という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は，名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。ただ，辞書への単語追加はここにある通り簡単にできるのですが，単語
nodat 2013/07/11
mecab

形態素解析

Perl

自然言語処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx