_ [Ruby] HTML パーサ : htmlsplit その 1 猫も杓子も XML なご時世ですが、ウェブ上のリソースのほとんどはまだ HTML です。HTML を解析・加工するニーズはまだまだなくなることはないでしょう。ということで Ruby で利用できる HTML パーサについて調べていきます。まずは moonwolf さんの htmlsplit から。対象は htmlsplit バージョン 1.02 です。 htmlsplit は HTML に特化したタグ付き文書パーサと言って良いと思います。パースされたテキストはタグやタグに挟まれた文字列に分解されますので、例えばリンクだけ抽出するなどの処理ができます。まずはちょっとした例をあげて、htmlsplit がどのように HTML ファイルを処理するのか見ていきます。 サンプルプログラム: htmlsplit_example.

