タグ

HTMLと解析に関するwogawaraのブックマーク (1)

  • 3/5 HTML解析ツールを作る [Javaプログラミング] All About

    HTML解析ツールを作る(3ページ目)今回は、URLを入力するとそのページにアクセスし、そこに含まれているリンクやイメージファイルを抜き出す解析ツールを作ってみます。 ParserCallbackでHTMLのタグを解析する 続いて、HTMLのソースコードを解析して特定の要素を取り出す方法について考えてみましょう。誰もが考えそうなのは、正規表現を使ってタグの特定の要素を抜き出すというものですね。これでも確かに可能ですが、JavaにはHTMLソースコードを解析するのに便利なものが用意されていますからそれを使ってみましょう。 Javaには、HTMLなどの構文解析を行うクラスが用意されています。これらは一般に「パーサ」と呼ばれています。HTMLの解析には、javax.swing.text.html.HTMLEditorKit.Parserというクラスが用意されており、このクラスによりタグやデータを

    3/5 HTML解析ツールを作る [Javaプログラミング] All About
  • 1