タグ

perlとHTML-Featureに関するwkbyshnbtkのブックマーク (2)

  • HTML::Elementを返すようにした - download_takeshi’s diary

    前々回のエントリで紹介した重要部分を抽出するperlモジュール「HTML::Feature」ですが、その後ジワジワと反響があって、意外なことにid:fubaさんから「HTML::Elementでデータを返してくれるといいなぁ」というリクエストまでいただくほどに。 でようやく今週末に時間がとれたので、遅ればせながら対応してみました。 http://search.cpan.org/~miki/HTML-Feature-2.0.3/ 精度面でもわずかながらチューンアップを施しています。多分少しだけ精度が高くなっているはず。 重要部分のHTML::Elementを取得する方法ですが、こんな感じでOKです。 use HTML::Feature; my $feature = HTML::Feature->new; my $result = $feature->parse("http://hogehog

    HTML::Elementを返すようにした - download_takeshi’s diary
  • HTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし(寅年)の日記

    以前からCPANで公開していたモジュールがあるんですが、日語での解説ドキュメントがなかったのと、最近大幅にブラッシュアップしたので、せっかくなので紹介記事を書きます。 HTML::Feature - Extract Feature Sentences From HTML Documents 「えいちてぃえむえる::ふぃーちゃー」と読みます。 ブログやニュース記事など様々なHTML文書から「重要部分」を推測して抽出してくれる perl モジュールです。 「重要部分」とはいわゆる「文」のことですね。文抽出とか焦点抽出とか色々な言い方があるかと思いますが、まぁ要するに特徴的な部分を推測して抽出するわけです。 どういうものか。 例えばブログ記事からヘッダーやフッター、その他のナビゲーションブロックを除いた「記事らしき部分」だけを切り取りたい、とします。 ぱっと思いつくのは「特定のコメントタグ

    HTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし(寅年)の日記
  • 1