[B! algorithm][scraping] nitoyonのブックマーク

nitoyon id:nitoyon

algorithmとscrapingに関するnitoyonのブックマーク (2)

芸能人の相関関係を探ってみるスクリプト - download_takeshi’s diary
ちょっとした実験をしてみました。芸能人の相関関係を機械的に探索してみます。具体的には「○○というタレントと関係が深い芸能人は？」といった、芸能人にフォーカスした類似検索みたいな実験です。技術的には「潜在的意味インデキシング」（Latent Semantic Indexing）といった手法を使います。これは普通は自然言語処理の世界で使われるテクニックですが、なにも言語だけでなく他のデータ素材でも面白い結果が得られるかもしれないので、やってみようという試みです。以下に大まかな手順をまとめます。 wikipedia から有名人のリストを抽出それらの有名人リストについて、一人ずつ「誰と関連が深いか」を集計。具体的には有名人個々のwikipediaのページ中に、先ほど抽出しておいた人名リストとマッチする人名がどれだけ掲載されているかをピックアップしていきます。上記の方法で有名人の間の相関
nitoyon 2009/03/24
潜在的意味インデキシング（Latent Semantic Indexing) で関係を探る。Perl で抜き出して、ごにょごにょやるときのテクニックいろいろ。

scraping

perl

wikipedia

algorithm
リンク
Webページの本文抽出 (nakatani @ cybozu labs)
Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
nitoyon 2007/10/30
本文抽出ライブラリ公開。同様のライブラリへのリンク。

algorithm

web

scraping

library

html

ruby
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx