タグ

自然言語処理に関するacotieのブックマーク (3)

  • [を] 転置インデックスによる検索システムを作ってみよう!

    転置インデックスによる検索システムを作ってみよう! 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装は パフォーマンスを無視すれば意外と簡単です。 それを示すために Perl で簡単な検索システムを作ってみました。 検索方式は転置インデックス(Inverted Index)、 ランキングには TF-IDF[2005-10-12-1] を用いました。 検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。 以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか? 3 ペンギン大好き 4 こんにちは。いかがおすごしですか? 5 ここ最近疲れ

    [を] 転置インデックスによる検索システムを作ってみよう!
    acotie
    acotie 2009/01/04
    "Google や Yahoo! などの Web 検索エンジンも、 Namazu や Hyper Estraier などの全文検索エンジンも、 基本はこれです。"
  • HTML::ExtractContentを使って本文抽出 - プログラマでありたい

    先日、ブログの文抽出をしたいと思ってちょっと調べてみました。rubyベースの実装のExtractContent.rbが良さげと思い色々試してみました。実際、良かったです。 ただ私の方が、あまりrubyに詳しくないことと、既にあるPerlのプログラムに組み込みたい制約があるので、別のものを探しました。それで見つけたのが、HTML::ExtractContent。その名もずばりの物がありました。よくよく見てみると、ExtractContent.rbを元に作っているようですね。 ACKNOWLEDGEMENT Hiromichi Kishi contributed towards development of this module as a partner of pair programming. Implementation of this module is based on the R

    HTML::ExtractContentを使って本文抽出 - プログラマでありたい
  • キーワード抽出モジュール Lingua::JA::Summarize - プログラマでありたい

    時間が空いたので、Lingua::JA::Summarizeも試してみました。0.07をCPAN経由でインストールしようとすると、途中でエラーが出ました。Class::Accessor::FastとClass::ErrorHandlerに依存するようなので、予めインストールしておきましょう。で、テストがどうしても通らないのですが、force installでとりあえず問題なしのようです。 以下、サンプルコード。CPANのサンプルに、utf8で使うために数行追加しているだけです。 #!/usr/bin/perl # Functional style use Lingua::JA::Summarize qw(:all); # OO style $s = Lingua::JA::Summarize->new({ charset => 'utf8', mecab_charset => 'utf8'

    キーワード抽出モジュール Lingua::JA::Summarize - プログラマでありたい
  • 1