タグ

2010年5月30日のブックマーク (1件)

  • HTMLファイルを簡単に解析するには? - @IT

    HTMLファイルの文法チェックや、特定のHTMLタグの内容を取り出したりする場合、独自のパーサーを作成したり、正規表現を使ってHTMLファイルを処理することがあるが、既存のHTMLパーサーを利用することで、作業を大幅に軽減できる。 オープンソースのライブラリであるNTidyは、HTML Tidyの.NET版である。これは来、HTMLファイルの文法チェックと整形を行う(文法エラーを自動修正する)ためのライブラリなのだが、そのAPIを利用することで、文法チェック以外にもHTMLファイルの解析に利用できる。 また、来の目的が文法に沿った自動的なHTMLタグの修正ということもあり、多少のHTMLタグの記述の誤りがあっても、文法エラーとならずに最後まで解析を行うことができるというのもNTidyの大きな特長の1つだ。 NTidyを使ったタグの抽出 NTidyはSourceForgeのNTidyのペ