[B! 自然言語処理] acotieのブックマーク

acotie id:acotie

自然言語処理に関するacotieのブックマーク (3)

[を] 転置インデックスによる検索システムを作ってみよう！
転置インデックスによる検索システムを作ってみよう！ 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装はパフォーマンスを無視すれば意外と簡単です。それを示すために Perl で簡単な検索システムを作ってみました。検索方式は転置インデックス(Inverted Index)、ランキングには TF-IDF[2005-10-12-1] を用いました。検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか？ 3 ペンギン大好き 4 こんにちは。いかがおすごしですか？ 5 ここ最近疲れ
acotie 2009/01/04
"Google や Yahoo! などの Web 検索エンジンも、 Namazu や Hyper Estraier などの全文検索エンジンも、基本はこれです。"

perl

search

自然言語処理
リンク
HTML::ExtractContentを使って本文抽出 - プログラマでありたい
先日、ブログの本文抽出をしたいと思ってちょっと調べてみました。rubyベースの実装のExtractContent.rbが良さげと思い色々試してみました。実際、良かったです。　ただ私の方が、あまりrubyに詳しくないことと、既にあるPerlのプログラムに組み込みたい制約があるので、別のものを探しました。それで見つけたのが、HTML::ExtractContent。その名もずばりの物がありました。よくよく見てみると、ExtractContent.rbを元に作っているようですね。 ACKNOWLEDGEMENT Hiromichi Kishi contributed towards development of this module as a partner of pair programming. Implementation of this module is based on the R
acotie 2008/12/05
perl

自然言語処理
リンク
キーワード抽出モジュール Lingua::JA::Summarize - プログラマでありたい
時間が空いたので、Lingua::JA::Summarizeも試してみました。0.07をCPAN経由でインストールしようとすると、途中でエラーが出ました。Class::Accessor::FastとClass::ErrorHandlerに依存するようなので、予めインストールしておきましょう。で、テストがどうしても通らないのですが、force installでとりあえず問題なしのようです。以下、サンプルコード。CPANのサンプルに、utf8で使うために数行追加しているだけです。 #!/usr/bin/perl # Functional style use Lingua::JA::Summarize qw(:all); # OO style $s = Lingua::JA::Summarize->new({ charset => 'utf8', mecab_charset => 'utf8'
acotie 2008/08/21
抽出

自然言語処理

perl
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx