[B! HTML][Perl] larkerのブックマーク

perlでHTMLを解析して欲しい情報を抽出するためのコードをメモ

HTMLファイルから特定のタグに囲まれている情報だけを抽出したり、リンクだけを抽出したりしたいと思ったので、それを実現するコードを色々調べてperlで作成してみたのでメモしておきます。いわゆるスクレイピングするためのコードです。このコードでは、perlのHTML::TreeBuilderを使いました。 #2014/1/25追記以下にメモしたコードそのままでは、HTML5で記述されたhtmlファイルから情報を抽出できません。HTML5にも対応したコードはperlでHTML5を解析して情報を抽出するコード（HTML::TagParser版）にメモしたので、見て頂ければと思います。実行環境と使用したperlモジュール実行環境はUbuntu12.04 64bit です。使用したのは以下の２つのモジュールです。これらのインストールはcpanmで行いました。 HTML::TreeBuilder

larker 2017/05/08

リンク

簡単！たった１３行のコードでHTML取得＆解析をするPerlスクリプト - DQNEO起業日記

１３行のコードで、Yahoo!Japanのトピックス一覧を取得する！ PerlでHTML取得・解析したいときはLWP::UserAgentとHTML::TreeBuilderというのを使うと簡単にできます。 LWP::UserAgentを使うと、Webページの取得ができます。 HTML::TreeBuilderを使うと、HTMLのDOM解析ができます。この２つのモジュールを使って、Yahoo!Japanのトピックス一覧を取得してみましょう。コメント行と空行を除くとたったの１３行です。 use strict; use warnings; use LWP::UserAgent; use HTML::TreeBuilder; # urlを指定する my $url = 'http://www.yahoo.co.jp'; # IE8のフリをする my $user_agent = "Mozilla

larker 2010/06/07

リンク

iPad - なんちゃってAjaxマンガビューワー : 404 Blog Not Found

2010年05月31日00:15 カテゴリTips iPad - なんちゃってAjaxマンガビューワーいや、落ち着いてない。 404 Blog Not Found:news - iPad入手なうで、どうやってマンガをiPadに入れて読むかだが、試行錯誤の結果iMacをWebサーバーにしてそこにzipを転がしておき、そこにSafariからアクセスして任意のアプリで開くというというところに落ち着いた。これも出来ればダウソなしにしちゃいたい。というわけで、こさえたのが、これ。 http://colab v6.dan.co.jp/~dankogai/ubunchu01/ 使い方 Safari 4 iPad向けですが、他でも動きます画面の右側をクリックすると次のページ、左で前のページ中央をクリックすると「なんちゃってコントローラー」表示/非表示切替なんちゃってコントローラーをクリックする

larker 2010/06/01

zipでまとめた画像ファイルをhtml表示させるスクリプトかな

Perl
HTML

リンク

HTML::Parserをオブジェクト指向で

HTML::Parserの使い方を探してると、いわゆる「手続き型」の使い方がよくヒットする。一つ一つのイベントごとにコールバック関数（サブルーチン）を定義するもの。こんな感じか。 use strict; use warnings; use LWP::Simple; use HTML::Parser; my $page = get('http://google.com/'); my $parser = HTML::Parser->new(api_version => 3, start_h => [\&start_tag, "tagname, attr, text"], end_h => [\&end_tag, "tagname"], text_h => [\&text, "dtext"] ); $parser->parse($page); $parser->eof; sub start

larker 2010/01/05

Perl
HTML

リンク

Perl html パーサーはじめてのHTML::Parser - ナナクサ

HTMLをパースしてくれるHTML::Parser。検索結果で出てくるマニュアルはいまいち分かりづらかったので、自分なりの試行錯誤メモを残しておく。 HTMLを読み込んで、特定タグの要素を抜き出す。 a タグと img タグだけの簡単なHTMLを用意して、それぞれに指定されたhref属性とsrc属性を抜き出してみる。 <html> <head> <title>TEST</title> </head> <body> <a href="http://kirinji.amayan.jp/"><img src="http://kirinji.amayan.jp/kirinji_top.gif"></a> </body> </html> で、これをHTML::Parserで解析してみる。 #!/usr/bin/perl use strict; use warnings; use HTML::Pars

larker 2009/12/30

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

HTMLとPerlに関するlarkerのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (3)

HTMLとPerlに関するlarkerのブックマーク (5)

perlでHTMLを解析して欲しい情報を抽出するためのコードをメモ

簡単！たった１３行のコードでHTML取得＆解析をするPerlスクリプト - DQNEO起業日記

iPad - なんちゃってAjaxマンガビューワー : 404 Blog Not Found

HTML::Parserをオブジェクト指向で

Perl html パーサー はじめてのHTML::Parser - ナナクサ

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

Perl html パーサーはじめてのHTML::Parser - ナナクサ