タグ

ブックマーク / www.akatsukinishisu.net (1)

  • XML::LibXMLでHTML文書を扱う - 徒書

    XML::LibXML大好きな者が以下述べてみます。 しかし、XML::Liberalを除けば、XML::*なモジュールはX抜きのHTMLってくれない.... と、404 Blog Not Found:perl - HTMLをXMLとして扱うで書かれていたのですが、XML::LibXML、というかその基となるCライブラリlibxml2はHTMLパーサも備えているので、直にHTMLを扱うこともできます。 ただ元がXMLパーサなだけに、少しでもHTML文書に壊れた部分があると解析エラーを起こして停止してしまいますが、幸いなことにそのエラーから回復するモードも備えています。以下サンプルを。 use strict; use warnings; use XML::LibXML; my $parser = XML::LibXML->new(); $parser->recover_silently(

    studio-m
    studio-m 2009/02/22
    XML::LibXMLは壊れたHTMLを解析するとエラーで停止するが、回復するモードも備えている。DOMのAPIだけでなくXPathも使える。
  • 1