[B! 形態素解析] hide-Kのブックマーク

テキスト解析:キーフレーズ抽出API - Yahoo!デベロッパーネットワーク

指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

hide-K 2009/06/04

リンク

大規模テキスト処理を支える形態素解析技術（工藤拓氏・Google） - Cafe Babe

第80回知識ベースシステム研究会を開催したが，二日間で58名の方々に参加して頂き，積極的に議論に加わって頂いた．この場を借りて，参加してくれた方々に感謝したい．大変遅くなった（爆）が，Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を，このブログで報告しておきたい．工藤氏の専門分野は統計的自然言語処理と機械学習であるが，日本語形態素解析エンジンMeCabの開発者であり，他にも自然言語処理関連の有益なツールや，Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど，時代をリードする研究開発者の一人である．彼の活動に興味があれば，彼のブログ「きまぐれ日記」は必見だろう．なお，当日は弊社側の不手際で，予定していた工藤氏の重要なデモをおこなうことができなかった．弊社はネットワーク会社であるにもかかわらず，ネットワーク

hide-K 2008/02/15

リンク

Google Japan Blog: 大規模日本語 n-gram データの公開

突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

hide-K 2007/11/02

リンク

テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク

指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

hide-K 2007/06/18

リンク

ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開ニュース - CNET Japan

ヤフーは6月18日、開発者向けサイト「Yahoo!デベロッパーネットワーク」において、日本語の文章を解析できるAPI「日本語形態素解析 Webサービス」を公開した。日本語形態素解析 Webサービスは、ヤフーの日本語処理技術部がYahoo! JAPAN研究所と共同で開発を進めてきた形態素解析エンジン「Web MA」を社外の開発者向けにAPIとして公開するもの。このエンジンは、ヤフーのブログ検索や商品検索などのテキスト処理、ブログ検索の「評判検索機能」、「まとめ検索機能」などのテキストマイニング処理にも利用されている。このAPIを利用することで、開発者は解析対象となる日本語の文章を形態素に分割し、品詞や読み、基本形を取得できるほか、対象となる文章に多く含まれている単語、その文章を構成する特徴的な単語などを把握することが可能だ。また、すでに公開済みのAPIから取得したデータを解析することもでき

hide-K 2007/06/18

リンク

形態素解析と検索APIとTF-IDFでキーワード抽出

形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

hide-K 2007/04/28

形態素解析

リンク

キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)

いわゆる「Web2.0」っぽい要素である「タグ」。一般にはタグ付けは手動で行うわけですが、自然言語テキストへのタグ付け(キーワード抽出)を自動で行うことができれば、あれこれと可能性が広がって楽しそう……しかし、それは実現が難しかったり高コストだったりして、簡単に手を出せる解はあまりありません。ラボの奥さんの作成したキーワード抽出モジュール Lingua::JA::Summarize は次の特徴を持っています。動作要件の敷居が低い辞書のメンテナンスをしなくても、未知語や熟語もある程度抽出してくれる希望の結果に近づけるためのチューニングが可能本モジュールを使って、サイボウズ・ラボ内での情報交換を行っている社内掲示板をスレッド単位で解析しているのですが、辞書を一切チューニングしていない状態でも「しょこたん☆ぶろぐ」や「猫かぶり隊隊員ニャンコ達」などの特徴的なキーワードが抽出されます（

hide-K 2007/04/28

リンク

YappoLogs: Lingua::JA::Summarize::Extract - 日本語文章のサマリ抽出

Lingua::JA::Summarize::Extract - 日本語文章のサマリ抽出なんとなくPlaggerドリブンで日本語の文章の中から特徴的な文節を抽出するモジュールを書きました。具体的にはGetSenというWebサービスをCPANモジュールで使いたかったという感じです。 CPANに上げてあります。 Lingua::JA::Summarize::Extract 簡単な使い方は use strict; use warnings; use utf8; use Lingua::JA::Summarize::Extract; my $extracter = Lingua::JA::Summarize::Extract-&gr;new; my $text = "日本語の文章を沢山書きます"; my $result = $extracter-&gr;extract($text); my $

hide-K 2006/11/14

リンク

[を] 裏で形態素解析器を使い長い文をそのままキーとしてWeb検索する

裏で形態素解析器を使い長い文をそのままキーとしてWeb検索する 2006-09-17-1 [YahooHacks][NLP] 今回の YahooHacks は、長い文を検索キーとしてWeb検索をするというハックです。一年前の検索会議[2005-09-30-3]で紹介しましたが、今回ゼロから書き直しました。サンプルコードが長くなってしまってすいません…。 (一時的にデモを置いておきます。そのうち消えます。ご了承下さい。 http://nais.to/~yto/tmp/yahoohacks-samp/hack_sentence.cgi 検索例：SEOの10ステップと...←うろ覚えタイトル ) ■■■長い文をそのまま検索キーとして Web 検索するどこかからコピペしてきた長い文をそのまま Yahoo! で検索してもヒットしないことが多いです。そういう場合

hide-K 2006/09/19

リンク

GREE Labs -オープンソーステクノロジー勉強会第2回 ―開催のご報告―

404 お探しのページは見つかりません GREE Engineering トップへ戻る

hide-K 2006/05/20

リンク

Template::Plugin::Lingua::JA::Summarizeを作ってみた

Kazuhoさんが作られた Lingua::JA::Summarize を TT から使うためのモジュールを作成してみた。使い方はシンブルで、 [% USE summarize = Lingua.JA.Summarize("ここにsummarizeしたいテキスト") %] [% FOREACH keyword = summarize.keywords %] [% keyword %] [% END %] こんな感じです。また下記のように keywords にオプションもハッシュリファレンスで渡せるようになってます。 [% USE summarize = Lingua.JA.Summarize("ここにsummarizeしたいテキスト", { maxwords => 10 }) %] Lingua::JA::Summarize はいろいろ使い道が考え付くので今後期待ですね。まだCPANに

hide-K 2006/04/28

リンク

Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

« IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日キーワード抽出モジュールを作ってみた一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

hide-K 2006/04/26

リンク

SennaのMySQL bindingをN-gramに : blog.nomadscafe.jp

SennaのMySQL bindingをN-gramにさきのエントリーでSennaは「N-gramインデックスを備え」と書いたが、N-gramにも対応しているというのが正しいかも。SennaをMySQLと連携させて使うときはSennaに付属のPatchを使うわけだけど、そのPatchではN-gramなインデックスをつくるようになっていません。mecabを利用した形態素解析がされています。せっかくなので、N-gramに対応させてみた。 Senna付属のPatchを当てた後のMySQLのソースコードをちょっと変更します。「myisam/mi_open.c」の280行目（？）ぐらい share->keyinfo[i].senna = sen_index_create(buf, sizeof(my_off_t), SEN_INDEX_NORMALIZE, 0, sen_enc_default)

hide-K 2006/02/04

リンク

ChasenとKakasiとMeCabの形態素解析・わかち書きの比較

Chasen(2.3.3)とKakasi(2.3.4)とMeCab(0.91)の形態素解析の結果を比較できます。Chasenはここに書いてある設定をしてあります。処理の比較等はMeCabのページ等に載っています。MeCabも近いうちに追加いたします。 04.7.8 - MeCabを追加しました。形態素解析するテキスト解析するテキストを入力して送信ボタンをクリック >>

hide-K 2005/12/16

形態素解析

リンク

MeCab: Yet Another Part-of-Speech and MorphologicalAnalyzer

MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

hide-K 2005/12/16

形態素解析

リンク

[を] 形態素解析と検索APIとTF-IDFでキーワード抽出

形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード

hide-K 2005/11/04

リンク

Senna 組み込み型全文検索エンジン - Senna 組み込み型全文検索エンジン

This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

hide-K 2005/11/04

リンク

はてなブックマーク

タグ

関連タグで絞り込む (14)

形態素解析に関するhide-Kのブックマーク (18)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス