HTMLファイルから特定のタグに囲まれている情報だけを抽出したり、リンクだけを抽出したりしたいと思ったので、それを実現するコードを色々調べてperlで作成してみたのでメモしておきます。いわゆるスクレイピングするためのコードです。このコードでは、perlのHTML::TreeBuilderを使いました。 #2014/1/25追記 以下にメモしたコードそのままでは、HTML5で記述されたhtmlファイルから情報を抽出できません。HTML5にも対応したコードはperlでHTML5を解析して情報を抽出するコード(HTML::TagParser版)にメモしたので、見て頂ければと思います。 実行環境と使用したperlモジュール 実行環境はUbuntu12.04 64bit です。 使用したのは以下の2つのモジュールです。これらのインストールはcpanmで行いました。 HTML::TreeBuilder
![perlでHTMLを解析して欲しい情報を抽出するためのコードをメモ](https://cdn-ak-scissors.b.st-hatena.com/image/square/39a99d58a81a7889637a95bc1a02338beeba3b42/height=288;version=1;width=512/https%3A%2F%2Fvirment.com%2Fimages%2F2014%2F01%2Fvirment_html_mod.png)