[B! cpan][html] webmarksjpのブックマーク

webmarksjp id:webmarksjp

cpanとhtmlに関するwebmarksjpのブックマーク (3)

Web::Scraperが便利すぎて困るの巻 (CodeZine編集部ブログ)
こんにちは、編集マンの久次です。なんだかPerlのWeb::Scraperが便利すぎで、やばいです。これまでWWW::Mechanizeでごにょごにょやっていたのですが、一気にいろんなものが解決しました。それで、いろいろ書いていたら、HTML::TreeBuilderのlook_downというメソッドも強力なことにいまさらながら、気づいたので勉強がてら、ためしにコードを書いてみました。 Webの自動制御に今日も夢が広がる…。＜参考＞ Web::Scraper - Web Scraping Toolkit inspired by Scrapi - search.cpan.org naoyaのはてなダイアリー - Web::Scraper ブログが続かないわけ | Web::Scraper 使い方(超入門) Web::Scraper超便利 scrAPI Cheat Sheet
webmarksjp 2008/07/13
Perl

script

tips

sample

module

idea

html

howto

database

cpan
リンク
HTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし（寅年）の日記
以前からCPANで公開していたモジュールがあるんですが、日本語での解説ドキュメントがなかったのと、最近大幅にブラッシュアップしたので、せっかくなので紹介記事を書きます。 HTML::Feature - Extract Feature Sentences From HTML Documents 「えいちてぃえむえる::ふぃーちゃー」と読みます。ブログやニュース記事など様々なHTML文書から「重要部分」を推測して抽出してくれる perl モジュールです。「重要部分」とはいわゆる「本文」のことですね。本文抽出とか焦点抽出とか色々な言い方があるかと思いますが、まぁ要するに特徴的な部分を推測して抽出するわけです。どういうものか。例えばブログ記事からヘッダーやフッター、その他のナビゲーションブロックを除いた「記事らしき部分」だけを切り取りたい、とします。ぱっと思いつくのは「特定のコメントタグ
webmarksjp 2008/07/13
scraping

cpan

web

html

library

perl

モジュール

html-feature

fulltext
リンク
HTML::Split
HTML を指定の文字数で分割するための HTMLS::Split なるモジュールを CPAN に up しましたので、さっくり使い方なんかをつらつら。なにするモジュール？最初に書いたとおり、HTML を指定の文字数で分割するためのモジュールです。携帯端末などで HTMLタグを含むテキストデータが 10KB 未満など、きびしい制限があるデバイス向けに HTML を出力する際には、PC ブラウザで見せている長文をそのまま出力するわけにはいきません（容量オーバーってことできれてしまう）。そこで、HTML を分割する必要があるのですが、ただ、単純に HTML を分割といっても、タグの途中できれたらどうしようもない A タグのテキストノードなんかが分割されるのはあんまりうれしくない。分割してもいいけど、次のページはどうやってはじめるのさ（なしに突然がやってくる）？ CSS を当てたい
webmarksjp 2008/07/13
perl

cpan

携帯

mobile

yapc

html
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx