タグ

perlとnatural_language_processingに関するnilabのブックマーク (7)

  • perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary

    すみません。タイトルはやや釣り気味です。 類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。 Luigi   https://github.com/miki/Luigi 類似検索なのでLuigi。ルイージとか読みたい人はそう読んじゃっても良いです。(冷) 考え方と仕組み 類似文書の検索、となりますと一般的には超高次元での空間インデックスとかが必要になります。 昔からR-TreeやSR-Treeなど、いろいろと提案されていますが、より高次元になると「次元の呪い」によりパフォーマンスが出なくなる、なんて言われていますね。 そこで最近ではLSHに代表されるような、より高度な「近似」型のインデキシング手法が人気を集めているようです。 で、今回考えたLuigiも実は近似型のインデッ

    perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary
    nilab
    nilab 2010/11/22
    例が不適切な関係です><「Input keyword: 不倫」「近似型のインデックス」「類似検索なのでLuigi。ルイージ」perlで高速な類似検索エンジンを構築できるようにしてみた - ダウンロードたけし(寅年)の日記
  • overlasting.net

    overlasting.net 2020 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy

    nilab
    nilab 2010/11/17
    _[O] YAPC::Asia Tokyo 2010 2日目で発表してきました : 「Perl で自然言語処理」
  • Perlではじめるテキストマイニング - JPerl Advent Calendar 2009

    Perlではじめるテキストマイニング - JPerl Advent Calendar 2009 Perl に関するちょっとした Tips をのっけてみるよ。ちゃんと続くかな? ■前置き みなさんこんにちは。ダウンロードたけし(寅年)です。来年は年男なので今からお正月が待ち遠しい35歳2児の父です。 ここ数年、web広告業界ではコンテキスト解析とかユーザの行動分析とか、いわゆるデータマイニング/テキストマイニング系の話題が花盛りです。 自分もそんな業界に属しているんですが、ふと気がつくと日語のテキストマイニング系モジュールを量産してしまっているので、ここらでいくつか紹介してみたいと思います。 今回はインターネットからブログなどのコンテンツを取得して、それを意味解析してクラスタリングする、といったようなことを題材にモジュールの紹介をしてみます。 ■HTML::Featureで文抽出 まずは

    nilab
    nilab 2009/12/11
    Perlではじめるテキストマイニング - JPerl Advent Calendar 2009:「HTML::Featureで本文抽出」「特徴語の抽出 (Lingua::JA::TFIDF, Lingua::JA::OkapiBM25)」「Lingua::JA::Categorizeで文書分類」「クラスタリングをガンガンこなす(Text::Bayon)」
  • livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog(ブログ)

    こんにちは。検索グループ解析チームの nabokov7 です。 今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。 当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。 で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。 特に多いウィキペディア日語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。 ウィキペディア日語版の解説

    nilab
    nilab 2007/10/18
    String::Trigram でテキストの類似度を測る
  • Shibuya Perl Mongers テクニカルトーク #8

    Shibuya Perl Mongers テクニカルトーク #8 2007-10-01-3 [EventReport][Video] Perl プログラマーなどの技術情報交換イベント 「Shibuya Perl Mongers テクニカルトーク」が開催されました! Shibuya Perl Mongers テクニカルトーク #8 http://shibuya.pm.org/blosxom/techtalks/200710.html - 日時 - 2007年10月1日 (月) 18:30-21:00 (18:00 開場) - 会場 - 神保町三井ビル 17F IIJ 大会議室 - 料金 - 無料 - ストリーミング - Ustream.tv にて配信予定 http://www.ustream.tv/channel/shibuya-pm http://www.ustream.tv/channe

    nilab
    nilab 2007/10/04
    _ [を] Shibuya Perl Mongers テクニカルトーク #8 : シンプソン係数 : Perlでテキストマイニング :
  • Perlで入門テキストマイニング » SlideShare (share powerpoint...

    2007.10.1 introduction to text mining with perl - Download as a PDF, PPTX or view online for free

    Perlで入門テキストマイニング » SlideShare (share powerpoint...
    nilab
    nilab 2007/10/01
    Perlで入門テキストマイニング � SlideShare (share powerpoint presentations online, slideshows, slide shows, download presentations, widgets, MySpace codes)
  • カイ二乗値で単語間の関連の強さを調べる

    カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ2乗値を使って単語間の関連度を調べる方法。 つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c

    カイ二乗値で単語間の関連の強さを調べる
    nilab
    nilab 2007/09/21
    _ [を] χ二乗値で単語間の関連の強さを調べる : カイ2乗値を使って単語間の関連度を調べる方法。つまり、関連語を探すときに、χ二乗値を関連度として使う。
  • 1