2009年05月30日18:30 カテゴリLightweight Languages perl - HTML::ExtractContent vs. 404 Blog Not Found やっとわかった。なんではてなブックマークのサマリーが、本blogに関してはイマイチなのかが。 HTMLから本文を抜き出せるモジュールHTML::ExtractContent - perl-mongers.org 今回ご紹介するHTML::ExtractContentはHTMLの内容を判断しコンテンツの本文らしき部分を抜き出せる凄いモジュールです。 これを、使っているからだ。 以下、llevalによる実演。 #!/usr/bin/perl use strict; use warnings; use LWP::UserAgent; use HTTP::Response::Encoding; use HTML: