[B! Perl][Library][web] webmarksjpのブックマーク

webmarksjp id:webmarksjp

PerlとLibraryとwebに関するwebmarksjpのブックマーク (3)

http://dev.razil.jp/project/xango/
webmarksjp 2008/07/13
atode

tool

lib

Framework

crawler

library

Perl

web
リンク
HTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし（寅年）の日記
以前からCPANで公開していたモジュールがあるんですが、日本語での解説ドキュメントがなかったのと、最近大幅にブラッシュアップしたので、せっかくなので紹介記事を書きます。 HTML::Feature - Extract Feature Sentences From HTML Documents 「えいちてぃえむえる::ふぃーちゃー」と読みます。ブログやニュース記事など様々なHTML文書から「重要部分」を推測して抽出してくれる perl モジュールです。「重要部分」とはいわゆる「本文」のことですね。本文抽出とか焦点抽出とか色々な言い方があるかと思いますが、まぁ要するに特徴的な部分を推測して抽出するわけです。どういうものか。例えばブログ記事からヘッダーやフッター、その他のナビゲーションブロックを除いた「記事らしき部分」だけを切り取りたい、とします。ぱっと思いつくのは「特定のコメントタグ
webmarksjp 2008/07/13
scraping

cpan

web

html

library

perl

モジュール

html-feature

fulltext
リンク
Bulkfeeds: Developer's API - RSS Directory & Search
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
webmarksjp 2008/07/12
api

service

perl

library

language

keyword

japanese

extraction

bulkfeeds

web
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx