[B! 自然言語処理] IMAKADOのブックマーク

IMAKADO id:IMAKADO

自然言語処理に関するIMAKADOのブックマーク (4)

キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)
いわゆる「Web2.0」っぽい要素である「タグ」。一般にはタグ付けは手動で行うわけですが、自然言語テキストへのタグ付け(キーワード抽出)を自動で行うことができれば、あれこれと可能性が広がって楽しそう……しかし、それは実現が難しかったり高コストだったりして、簡単に手を出せる解はあまりありません。ラボの奥さんの作成したキーワード抽出モジュール Lingua::JA::Summarize は次の特徴を持っています。動作要件の敷居が低い辞書のメンテナンスをしなくても、未知語や熟語もある程度抽出してくれる希望の結果に近づけるためのチューニングが可能本モジュールを使って、サイボウズ・ラボ内での情報交換を行っている社内掲示板をスレッド単位で解析しているのですが、辞書を一切チューニングしていない状態でも「しょこたん☆ぶろぐ」や「猫かぶり隊隊員ニャンコ達」などの特徴的なキーワードが抽出されます（
IMAKADO 2009/08/03
Lingua::JA::Summarize

自然言語処理

perl
リンク
ExtractUniqueBlock - コンテンツ抽出（本文抽出） Perl モジュール
コンテンツ抽出（本文抽出） Perl モジュール ExtractUniqueBlock の配布ページです。追加した方がよい機能、修正した方がよい機能などがありましたら、お気軽にご連絡ください。最終的には CPAN での配布を予定しております。ダウンロード最新版（0.01） ExtractUniqueBlock_beta_0.01.zip ExtractUniqueBlock_beta_0.01.zip に含まれるファイルは以下の通りです。 ExtractUniqueBlock.pm コンテンツ抽出（本文抽出） Perl モジュール ExtractUniqueBlock 本体 asahi_rss.pl asahi.com の RSS を取得してコンテンツ抽出（本文抽出）を行うサンプル local_directory.pl ローカルの HTML 群からコンテンツ抽出（本文抽出）を行うサンプ
IMAKADO 2009/08/03
perl

自然言語処理

save

本文抽出
リンク
Algorithm::Diff で類似文字列検索
Algorithm::Diff で類似文字列検索 2008-04-22-3 [Algorithm][Programming] Perl のモジュール Algorithm::Diff[2004-12-12-2]を使って、線形時間で類似文字列検索するサンプルプログラム。まあ、 agrep があればそれでいいんですけどね。サンプルコード(ads.pl)： #!/usr/bin/perl use strict; use warnings; use Algorithm::Diff; use utf8; use Encode; use open ':utf8'; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; my $key = shift; my @seq1 = split(//, decode('utf-8', $key)); while (<
IMAKADO 2008/04/28
perl

自然言語処理

text

diff
リンク
livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog（ブログ）
こんにちは。検索グループ解析チームの nabokov7 です。今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。特に多いウィキペディア日本語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。ウィキペディア日本語版の解説
IMAKADO 2008/03/13
String::Trigram

algorithm

自然言語処理

ngram

cpan

perl
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx