はじめに Web ページから特定の情報を抽出する技術の総称 Web スクレイピングは、様々な方法で実現されます。手動で必要な部分をコピーする方法や、正規表現を使う方法、HTML と CSS の内容を元に独自のルールで意味的なまとまりを推定する方法 VIPS: A VIsion based Page Segmentation Algorithm など、一研究分野になるほど本当に様々です。 この記事では、そんな様々な方法の中から XPath (XML Path Language) を取り上げます。XPath は、その名の通り XML から必要な箇所を探索・抽出する為に用いられる言語ですが、HTML にも利用することができます。自分が普段 Web スクレイピングする時は、Python の lxml で XPath を使用しています。 Web スクレイピングで実際に想定される状況を例示しながら、X