baboocon19820419のブックマーク - はてなブックマーク

baboocon19820419 id:baboocon19820419

ブックマーク / virment.com (1)

perlでHTMLを解析して欲しい情報を抽出するためのコードをメモ
HTMLファイルから特定のタグに囲まれている情報だけを抽出したり、リンクだけを抽出したりしたいと思ったので、それを実現するコードを色々調べてperlで作成してみたのでメモしておきます。いわゆるスクレイピングするためのコードです。このコードでは、perlのHTML::TreeBuilderを使いました。 #2014/1/25追記以下にメモしたコードそのままでは、HTML5で記述されたhtmlファイルから情報を抽出できません。HTML5にも対応したコードはperlでHTML5を解析して情報を抽出するコード（HTML::TagParser版）にメモしたので、見て頂ければと思います。実行環境と使用したperlモジュール実行環境はUbuntu12.04 64bit です。使用したのは以下の２つのモジュールです。これらのインストールはcpanmで行いました。 HTML::TreeBuilder
baboocon19820419 2017/06/01
HTML

Perl

スクレイピング

プログラミング
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx