タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

スクレイピングに関するy_maeyamaのブックマーク (1)

  • Html Agility Packを使ってWebページをスクレイピングするには?[C#、VB]

    Webページの内容をどのようにして解析すればよいだろうか? 例えば、記事の一覧が掲載されているWebページの内容を取得してきて、そこから記事のタイトルとURLだけを全て取り出したいといった場合だ。正規表現(System.Text.RegularExpressions名前空間のRegexクラス)を使えば可能ではあるが、かなり面倒である。WebページがXHTMLで記述されているならXDocumentクラス(System.Xml.Linq名前空間)で楽に解析できるはずなのだが、しかし現実のWebページにはXHTMLであると宣言してあってもXMLとしては不完全な記述のものが少なくない(=XDocumentクラスで解析できない)。そこで稿では、オープンソースのライブラリ「Html Agility Pack」を使ってWebページを解析する方法を解説する。 事前準備 稿では、文字コードがシフトJIS

    Html Agility Packを使ってWebページをスクレイピングするには?[C#、VB]
  • 1