タグ

nlpとmecabに関するs99937のブックマーク (3)

  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

    s99937
    s99937 2007/06/23
    なんという。
  • 【レビュー】MeCabで形態素解析、はてなとWikipediaが知恵袋に - infony登場 (1) infonyとは | エンタープライズ | マイコミジャーナル

    日々ネットに溢れ出る情報を収集し、フィルタリングし、振り分けて情報を摂取し続けるジャンキー達。そんな我々のための興味深いツールとしてInfolustを紹介した。InfolustはWikipediaを活用したサービスで、指定したページのコンテンツを要約して表示するWebサービスだ。Wikipediaを知識ベースとして自動的に処理をおこなうという、さながらオート編集者というべきものだ。 今回はinfonyを紹介したい。5日に公開されたサービスで、指定したページを解析してキーワードごとに解析結果を表示するというもの。Infolustを日向けにカスタマイズして開発したようなサービスだ。 テキストの形態素解析には、京都大学情報学研究科−日電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトにおいて開発された形態素解析エンジンである和布蕪(MeCab: Yet Anoth

    s99937
    s99937 2007/04/07
    MeCabは京大じゃなくてNAISTだったような気が。と思ったら工藤さんがCS研にいたときに京大と組んでやった仕事として扱われてるのね。
  • きまぐれ日記: ルー語変換を MeCab だけで実現

    巷で話題のルー語変換.周りにこういうしゃべり方をする人がいるからかもしれませんが, 爆笑しました 中身は,MeCab -> EDICT -> Bilingual Emacspeak だそうです. 単純な単語置換なので,MeCab を汎用テキスト変換ツールとして利用すればまったく同じことが MeCab だけで実現できます. やってることは単純で, MeCab の辞書の品詞フィールドをルー語にした辞書を作るだけです.対象のルー語がない場合は単語そのものを品詞に設定します. 通常は 「入力文字列 -> 品詞列」 の変換が行われます.上記のような辞書を作ると,品詞の部分がすべてルー語に置き換わって 「入力文字列 -> ルー語文字列」の変換が実現されます. しかも単語のつながりやすさや,出現しやすさは上記のような辞書を作っても CSV カラムの 2,3,4 カラム目に残っているので, 原理的には M

  • 1