タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

computerとXMLとparserに関するtsupoのブックマーク (2)

  • 不正なXML/HTMLもパース可能 - ShaniXmlParser | エンタープライズ | マイコミジャーナル

    The ShaniXmlParser projectは8日(米国時間)、ShaniXmlParserの最新版となるShaniXmlParser version 1.4を公開した。ShaniXmlParserはJavaで開発されたXML/HTML DOM/SAXパーサ。不正なフォーマットであってもパースできる点に特徴がある。 ShaniXmlParserはGNU GENERAL PUBLIC LICENSE Version 2のもとで公開されているオープンソースソフトウェア。ShaniXmlParser 1.4における主な変更点は次のとおり。 メモリ使用の改善 SoftReferenceキャッシュに関するドキュメントを削除 DOM 3 Core Test Validation suite試験パス数: 649(722のうち) DOM 2 Core Test Validation suite試験

    tsupo
    tsupo 2006/07/12
    検証されたXMLやXHTMLをパースできるパーサは存在するが、不正なフォーマットの状態のXMLやXHTMLをパースできる点がShaniXmlParserにおける最大の特徴
  • にぽたん休憩所 - Hatena::Diary's feed is been included some "XML invalid" SGML entities.

    はてなダイアリーの feed は XML invalid な SGML entity をそのまま出していたりする。 &raquo; とかが普通に feed 内に含まれてる件。 何使っても parse 出来ない。 いいかげん、 &#187; &#xBB; とかにして欲しい。 いや、<![CDATA[ ... ]]> 内だけはいいんですけどね。 いつか誰かが叩くんじゃないかなとか思ったけど、あんまり叩かれてる様子でも無さそう。 あんまり「叩く」とかしたくないのでソフトタッチで言わせてもらおうかなと思いました。 &lt;, &gt;, &amp;, &quot;, &apos; 以外の「名前」で表現される entity は 10 進か 16 進で数値化して欲しいです。 ちなみに弊社ではこんなのを使ったり使わなかったり。 http://search.cpan.org/dist/HTML-Entit

    にぽたん休憩所 - Hatena::Diary's feed is been included some "XML invalid" SGML entities.
    tsupo
    tsupo 2006/06/13
    何使っても parse 出来ない → Bloglines では parse できてたりするから、自前の parser を使ってるのかな。livedoor Reader では読めないけど、Bloglines では読める feed 問題、この辺が関係ある?
  • 1