[B! perl][natural_language_processing] nilabのブックマーク

perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary

すみません。タイトルはやや釣り気味です。類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。 Luigi 　 https://github.com/miki/Luigi 類似検索なのでLuigi。ルイージとか読みたい人はそう読んじゃっても良いです。（冷）考え方と仕組み類似文書の検索、となりますと一般的には超高次元での空間インデックスとかが必要になります。昔からR-TreeやSR-Treeなど、いろいろと提案されていますが、より高次元になると「次元の呪い」によりパフォーマンスが出なくなる、なんて言われていますね。そこで最近ではLSHに代表されるような、より高度な「近似」型のインデキシング手法が人気を集めているようです。で、今回考えたLuigiも実は近似型のインデッ

nilab 2010/11/22

例が不適切な関係です＞＜「Input keyword: 不倫」「近似型のインデックス」「類似検索なのでLuigi。ルイージ」perlで高速な類似検索エンジンを構築できるようにしてみた - ダウンロードたけし（寅年）の日記

リンク

overlasting.net

overlasting.net 2020 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy

nilab 2010/11/17

_[O] YAPC::Asia Tokyo 2010 2日目で発表してきました : 「Perl で自然言語処理」

リンク

Perlではじめるテキストマイニング - JPerl Advent Calendar 2009

Perlではじめるテキストマイニング - JPerl Advent Calendar 2009 Perl に関するちょっとした Tips をのっけてみるよ。ちゃんと続くかな？ ■前置きみなさんこんにちは。ダウンロードたけし（寅年）です。来年は年男なので今からお正月が待ち遠しい35歳2児の父です。ここ数年、web広告業界ではコンテキスト解析とかユーザの行動分析とか、いわゆるデータマイニング／テキストマイニング系の話題が花盛りです。自分もそんな業界に属しているんですが、ふと気がつくと日本語のテキストマイニング系モジュールを量産してしまっているので、ここらでいくつか紹介してみたいと思います。今回はインターネットからブログなどのコンテンツを取得して、それを意味解析してクラスタリングする、といったようなことを題材にモジュールの紹介をしてみます。 ■HTML::Featureで本文抽出まずは

nilab 2009/12/11

Perlではじめるテキストマイニング - JPerl Advent Calendar 2009:「HTML::Featureで本文抽出」「特徴語の抽出 (Lingua::JA::TFIDF, Lingua::JA::OkapiBM25)」「Lingua::JA::Categorizeで文書分類」「クラスタリングをガンガンこなす（Text::Bayon）」

リンク

livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog（ブログ）

こんにちは。検索グループ解析チームの nabokov7 です。今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。特に多いウィキペディア日本語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。ウィキペディア日本語版の解説

nilab 2007/10/18

String::Trigram でテキストの類似度を測る

リンク

Shibuya Perl Mongers テクニカルトーク #8

Shibuya Perl Mongers テクニカルトーク #8 2007-10-01-3 [EventReport][Video] Perl プログラマーなどの技術情報交換イベント「Shibuya Perl Mongers テクニカルトーク」が開催されました！ Shibuya Perl Mongers テクニカルトーク #8 http://shibuya.pm.org/bl osxom/techtalks/200710.html - 日時 - 2007年10月1日 (月) 18:30-21:00 (18:00 開場) - 会場 - 神保町三井ビル 17F IIJ 大会議室 - 料金 - 無料 - ストリーミング - Ustream.tv にて配信予定 http://www.ustream.tv/channel/shibuya-pm http://www.ustream.tv/channe

nilab 2007/10/04

_ [を] Shibuya Perl Mongers テクニカルトーク #8 : シンプソン係数 : Perlでテキストマイニング :

リンク

Perlで入門テキストマイニング » SlideShare (share powerpoint...

2007.10.1 introduction to text mining with perl - Download as a PDF, PPTX or view online for free

nilab 2007/10/01

Perlで入門テキストマイニング � SlideShare (share powerpoint presentations online, slideshows, slide shows, download presentations, widgets, MySpace codes)

リンク

カイ二乗値で単語間の関連の強さを調べる

カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ２乗値を使って単語間の関連度を調べる方法。つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c

nilab 2007/09/21

_ [を] χ二乗値で単語間の関連の強さを調べる : カイ２乗値を使って単語間の関連度を調べる方法。つまり、関連語を探すときに、χ二乗値を関連度として使う。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

perlとnatural_language_processingに関するnilabのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第2週）

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス