タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

libxmlとmineに関するziguzaguのブックマーク (1)

  • XML::LibXML で HTML の一部をパースする

    XML::LibXML::parse_html_string で HTML の一部、たとえばブログ記事の文のみとか、をパースしようとして無駄に苦戦してしまったのでメモ。 以下のような、DOCTYPE 宣言もなければ html/body 要素もないけど、ちゃんと(?)HTMLの一部ではあるものを XML::LibXML でパース、ごにょったあと出力したい。 #!/usr/bin/perl use strict; use warnings; use XML::LibXML; my $html =<<HTML; <div class="entry"> <p>test!!</p> </div> HTML my $parser = XML::LibXML->new; my $doc = $parser->parse_html_string($html); print $doc->toStringH

    ziguzagu
    ziguzagu 2009/04/06
    libxml 2.6.27 + XML::LibXML 1.62 移行の組み合わせで encoding オプションが使える。/ うーむ、libxml 2.6.31 + XML::LibXML 1.69 でも実体参照に。なぞ。
  • 1