タグ

mecabに関するrestartrのブックマーク (4)

  • mecab-gree-20060411.ppt

    MeCab 汎用日形態素解析エンジン 工藤 拓 アジェンダ 形態素解析技術 辞書引きのアルゴリズム、データ構造 曖昧性の解消 MeCab の開発裏話 歴史 設計方針 汎用テキスト変換ツールとしての MeCab 恐ろしく汎用的! 「意外な」使い方 これから 形態素解析 文を単語に区切り、品詞を同定する処理 全文検索 Spam フィルタリング 人工無能... 以下の3つの処理 単語への分かち書き(tokenization) 活用語処理(stemming, lemmatization) 品詞同定(part-of-speech tagging) すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*

    restartr
    restartr 2010/02/28
    [filetype:pdf][media:document]
  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

    restartr
    restartr 2010/02/28
    結局は 1. Yahoo!の形態素解析結果をMeCabフォーマットで出力できるようなラッパースクリプト 2. 活用形を展開するスクリプト 3. Yahoo!の形態素解析器用のMeCab設定ファイル (rewrite.def, feature.def, char.def, unk.def) を作ればよさそうで
  • MeCab まとめ - When I Think of You, I Smile

    単語の追加はシステム辞書かユーザー辞書に(id:udzuki:20090912:1252739982)。その際、コストを適当に指定する方法と学習させる方法とある(id:udzuki:20090912:1252740073)。 すきな素性を追加できる 出力フォーマットはいろいろと定義可能(id:udzuki:20090912:1252739668)、またそうしたフォーマットはそれぞれIDで置換して出力できる(id:udzuki:20090912:1252739861) 未知語を推定するかしないか選択できる(id:udzuki:20090912:1252739917),。また、処理の方法をいろいろ指定可能 (id:udzuki:20090912:1252739948)

    MeCab まとめ - When I Think of You, I Smile
  • ウノウラボ Unoh Labs: PHPとMecabでキーワード自動リンクを実装する

    こんにちは、山下です。 今年もどうぞよろしくお願い致します。 Webサービスを開発していると、特定のキーワードを自動でURLリンクにする処理が必要になることがあると思います。今回は、このキーワード自動リンク機能を形態素解析ツールMecabを使ってPHPで実装する方法を紹介したいと思います。 説明に入る前に少し補足しておくと、Trieの実装であるDouble-Array処理だけ利用したいのであれば、MecabからDouble-Array処理の部分を切り出したDartsというライブラリがあります。しかし、なぜMecabを使うかというと、PerlだとDartsのバインディングが公開されているのですが、現時点でPHP版はありません。また、最近のLinuxディストリビューションでは、Mecabのパッケージが最初から用意されているため、より簡単に利用できると思ったからです。 それでは、順を追って説明

  • 1