[B! perl][HTML-Feature] wkbyshnbtkのブックマーク

wkbyshnbtk id:wkbyshnbtk

perlとHTML-Featureに関するwkbyshnbtkのブックマーク (2)

HTML::Elementを返すようにした - download_takeshi’s diary
前々回のエントリで紹介した重要部分を抽出するperlモジュール「HTML::Feature」ですが、その後ジワジワと反響があって、意外なことにid:fubaさんから「HTML::Elementでデータを返してくれるといいなぁ」というリクエストまでいただくほどに。でようやく今週末に時間がとれたので、遅ればせながら対応してみました。 http://search.cpan.org/~miki/HTML-Feature-2.0.3/ 精度面でもわずかながらチューンアップを施しています。多分少しだけ精度が高くなっているはず。重要部分のHTML::Elementを取得する方法ですが、こんな感じでOKです。 use HTML::Feature; my $feature = HTML::Feature->new; my $result = $feature->parse("http://hogehog
wkbyshnbtk 2009/01/02
HTML-Feature

cpan

perl

module

HTML-Element
リンク
HTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし（寅年）の日記
以前からCPANで公開していたモジュールがあるんですが、日本語での解説ドキュメントがなかったのと、最近大幅にブラッシュアップしたので、せっかくなので紹介記事を書きます。 HTML::Feature - Extract Feature Sentences From HTML Documents 「えいちてぃえむえる::ふぃーちゃー」と読みます。ブログやニュース記事など様々なHTML文書から「重要部分」を推測して抽出してくれる perl モジュールです。「重要部分」とはいわゆる「本文」のことですね。本文抽出とか焦点抽出とか色々な言い方があるかと思いますが、まぁ要するに特徴的な部分を推測して抽出するわけです。どういうものか。例えばブログ記事からヘッダーやフッター、その他のナビゲーションブロックを除いた「記事らしき部分」だけを切り取りたい、とします。ぱっと思いつくのは「特定のコメントタグ
wkbyshnbtk 2009/01/02
cpan

module

perl

HTML-Feature
リンク
1