さて、せっかく商品名や価格やスペックが書き込まれたファイルがあるのだから、これを集計して、商品一覧を作れるのではないか、と考えることができる。 ■HTMLの中から情報を抜き出す これらのHTMLファイルの中には、確かに「商品名」「CPUの種類」「価格」の3つの情報が含まれている。もし、商品種類が3個程度なら手動でカット&ペーストして一覧表を作ってもよいのだが、数が膨大になると手作業ではやっていられない。自動的にHTMLファイルから意味ある情報を拾いあげて、自動的に一覧表を作成するソフトウェアが作れないものだろうか? 実際に上記のHTML文書の例を見て、簡単なルールで意味ある情報を抜き出すことができるか、考えてみよう。 まず商品名だが、見出しとなるh1要素に必ず商品名が書き込まれているという共通ルールが見てとれる。ところが、「極楽トンボ2号」の前に付いている「轟く雷鳴!」という文字列は商品名