タグ

mecabに関するinit5のブックマーク (6)

  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
  • Text::MeCab::Dictでカスタム辞書 - D-6 [相変わらず根無し]

    Text::MeCab::Dictでカスタム辞書 ちょっとリリースそのものでバタバタしてしまいましたが、Text::MeCabを使って、mecabのカスタム辞書に語句を比較的容易に追加できるようにしました。例はText::MeCab 0.20004に同梱されているeg/add_custom.plを参照してください。 自分の場合はちょっと人名をがばっと追加したかったのでAcme::Actor::JA(codereposのみ -- CPANにはアップしてません)とText::MeCab::Dictを使って3000人程の人名を追加してやりました。これをすると何がいいかというと、これまでだとものすごく有名な人の名前で検索する場合とかに「姓」「名」に名前が分けられてしまっていたところがその名前全体をひとつの語句として認識してくれるようになります。 # 追加前 shell > 堂光一 堂 名詞,

  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

  • 【レビュー】MeCabで形態素解析、はてなとWikipediaが知恵袋に - infony登場 (1) infonyとは | エンタープライズ | マイコミジャーナル

    日々ネットに溢れ出る情報を収集し、フィルタリングし、振り分けて情報を摂取し続けるジャンキー達。そんな我々のための興味深いツールとしてInfolustを紹介した。InfolustはWikipediaを活用したサービスで、指定したページのコンテンツを要約して表示するWebサービスだ。Wikipediaを知識ベースとして自動的に処理をおこなうという、さながらオート編集者というべきものだ。 今回はinfonyを紹介したい。5日に公開されたサービスで、指定したページを解析してキーワードごとに解析結果を表示するというもの。Infolustを日向けにカスタマイズして開発したようなサービスだ。 テキストの形態素解析には、京都大学情報学研究科−日電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトにおいて開発された形態素解析エンジンである和布蕪(MeCab: Yet Anoth

  • [を] MECAPI (MeCab API) 暫定版を公開

    MECAPI (MeCab API) 暫定版を公開 2006-09-18-1 [WebTool][NLP][MECAPI] taku-ku 氏による日形態素解析器 MeCab の Web Service を 作ってみたので公開します。その名も MECAPI (メカピ)! - MECAPI - MeCab Web Service (MeCab API) http://mimitako.net/api/mecapi.cgi Perl の MeCab モジュールを使っています[2006-02-25-4]。 仕様は今後変わっていく可能性あり。 また、サーバ負荷によっては予告なく止めることもあり。 同一 IP からの回数制限とかするかも。 とりあえずしばらく様子を見て、落ち着いたらソースを公開します。 でもって、余裕のあるサーバに置いてもらいたいと思っています。 現段階で、

  • Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

    « IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

  • 1