sunaokaのブックマーク - はてなブックマーク

HTML::FeaturedImage - URLに含まれる画像のうち、重要そうなものを取り出すためのPerlモジュール - fubaはてな
yuisekiが「エントリのメイン画像抽出があるといいかも」と言ってたときに、昼飯まで暇だったので作った。結果のサンプルはこちら。仕組みはてきとう。まずURLをたくさん与え、その先にある画像の数を数える。たくさんのページにでてきたり、何度もおなじページに出てくる画像はどうでもいいものとして、消す。よくあるやり方だけど強力。よく考えるとHTML::じゃない感じがしてきた。あとで直すかも。HTML::としてふさわしくするため、Web::Scraperにcontent渡せるようにした。 $content = "<html>..."; $hfi->add_page($url, $content);あと、リンク先が画像っぽいURLのときにはa hrefも取るようにした。閾値のキャッシュとかちょっとアルゴリズム変更とか、細かいところも変更。ちょっとノイズ入るようになったけど、たぶん欲しい物は確実に
sunaoka 2007/11/02
Perl
リンク
1

はてなブックマーク