タグ

形態素解析に関するtsupoのブックマーク (29)

  • [を] MECAPI (MeCab API) 暫定版を公開

    MECAPI (MeCab API) 暫定版を公開 2006-09-18-1 [WebTool][NLP][MECAPI] taku-ku 氏による日形態素解析器 MeCab の Web Service を 作ってみたので公開します。その名も MECAPI (メカピ)! - MECAPI - MeCab Web Service (MeCab API) http://mimitako.net/api/mecapi.cgi Perl の MeCab モジュールを使っています[2006-02-25-4]。 仕様は今後変わっていく可能性あり。 また、サーバ負荷によっては予告なく止めることもあり。 同一 IP からの回数制限とかするかも。 とりあえずしばらく様子を見て、落ち着いたらソースを公開します。 でもって、余裕のあるサーバに置いてもらいたいと思っています。 現段階で、

    tsupo
    tsupo 2006/09/19
    日本語形態素解析器 MeCab の Web Service を作ってみたので公開します → こういうサービスはうれしい。
  • Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

    « IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

    tsupo
    tsupo 2006/04/26
    実装にあたっては、連続する名詞を自動的に結合評価するようにした点がポイント/要約機能は未実装/時事問題や、専門性の高い文書についても、適切なキーワード抽出を期待できる
  • Amazon Search のコンテンツ解析ロジックをリファクタリング中

    Amazon Search サービスを開始してから約2年になりました。開始始めは 2004 年 03 月 07 日らしいんですが、自分でも覚えていません・・・ 細かい修正を含めるて数えてみたら、52回目のバージョンアップになりますが、サーバの計算力も Pentium 4 から Athlon 64 X2 と大幅に向上したこともあり、コンテンツ解析部分の計算量を増やして、より適合度の高い関連商品が選択されるようにしてみました。 前より良くなってますよね? (なってなかったらごめんなさい・・・) ※新しいエントリーもしくは古いキャッシュが消えるまでお待ち頂いてからご確認ください。 さて、計算量を増やす代わりに、形態素解析を ChaSen (茶筌)から MeCab に変更しました。MeCab は ChaSen の3〜4倍程度は高速に動作するので、全体としては速度的に速くなっているかもしれません。

    tsupo
    tsupo 2006/02/28
    MeCab 0.9 系は、0.8 系以前とは根本的に設計自身が違うようでして、かなり満足のいく分かち書きをしてくれるようになりました。
  • 転職・退職代行マガジン -

    「適応障害になってしまって退職をしたい…。でもこれってただの逃げなのかな」   適応障害は人によって症状が違うため、なかなか周りに理解がされにくく、苦しいですよね。 「このまま仕事を続けられそうに…

    tsupo
    tsupo 2006/01/17
    1秒当たり約4万8,000文字(全角文字)の解析が可能(PentiumR M 1.73GHz、RAM 1GBにおいて、同社調べ)
  • [MM][タグ][API] タグ自動抽出API (13:46) - いしなお! (2005-10-11)

    _ タグ自動抽出API (13:46) tDiary: category_to_tagプラグイン より、 つーか、MM/Memoのタグ抽出もAPIになってればいいのに(とかいう)。 入力フォームで呼んでいるJavaScriptのソースを見れば分かるけど、もともとタグ抽出処理はAPIに切り出してあって、こんな感じで呼べるんだけど、最近うちのサーバーはカフカ気味なんで、朝起きると巨大な虫に変わっているんです。じゃなくて、過負荷気味なんでサービスとして提供できるほど安定稼働できるかどうか微妙なんで公開していませんでした。が、使ってみたい人は適当に使ってもかまいません。 http://1470.net/api/mmutil.php?cmd=getwords;url=[URLエンコードしたURL文字列] をコールすると、EUC-JPな文字列をタブ文字区切りで最大20個返します。文字コード判別が腐ると

  • [を] 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード

    tsupo
    tsupo 2005/10/12
    キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します
  • NTTデータの日本語解釈ツール「なずき」に興味津々

    NTTデータの日語意味理解製品「なずき」は、徳島大学発ベンチャー企業、株式会社言語理解研究所(代表取締役:青江 順一、社:徳島県徳島市)との協業により商品化しました。「なずき」では、単語の出現頻度等を利用した統計的な言語処理技術に加え、人の思考と同じように文書の「意味」を踏まえた言語処理技術を用いている点が大きな特長となります。 中でも注目している製品は、「類似文書検索エンジン」と「意味概念キーワード抽出エンジン」と「感情理解エンジン」の3つで、これだけで Google AdSense 的にコンテンツマッチ広告や、ブログの記事のテキストマイニングといったビジネスができそうです。まぁ ”これだけで” とは書きましたが、大学の研究の成果物ってのは企業相手にしているのでお値段も非常に高価ってのが通例なので、なかなか手がだせないってのも事実とは思います。 オープンソースでも似たような製品はあり

    tsupo
    tsupo 2005/07/28
    NL な話題やツールを探すには「長岡技科大 自然言語処理研究室さんの公開Bookまーく」からたどると便利です。
  • 人工無脳レビュー

    Fig. 1に最近の人工無脳の能力の、独断に基づいた分布を示す。横軸は学習能力、縦軸は文脈追跡能力を示している。近年この勢力図は大きく変わった。マルコフ文生成を行なう人工無脳の一派の台頭と、限定的ながら論理を追跡して会話に反映させる人工無脳の技術の出現である。かつて人工無脳の代名詞と考えられていた辞書型はいまや旧世代のアーキテクチャに属し、その範疇では新しい技術開発が停滞している模様である。ログ型アーキテクチャは以前から存在していたのだが、いつの時代にもあまり大きな勢力にはなっていないようである。これらの情勢の変化はマシンパワーの増大と人工無脳業界への形態素解析器の導入に伴って生じたと考えられる。以下に各人工無脳の特徴を簡単に述べる マルコフ文生成型 マルコフ連鎖を用いて文を生成する。後述の辞書型人工無脳は辞書を拡大することでよい反応をするようになるが、マルコフ文生成型は逆で、生成する文の

    tsupo
    tsupo 2005/07/04
    情勢の変化はマシンパワーの増大と人工無脳業界への形態素解析器の導入に伴って生じた
  • http://tdiary.ishinao.net/20050608.html

    tsupo
    tsupo 2005/06/08
    HTMLドキュメントに含まれるテキスト部分を形態素解析し、URLごとの特徴語群を取得している。