1.はじめに 1・1 WWWと情報抽出 HTMLやXMLなどの半構造化文書から有用な知識を発見、抽出するためのWebマイニングの研究が注目を集めている。そしてWebマイニングの研究のひとつとして、Webページのコンテンツと構造を再構成し、新たな情報としてユーザに提供するための研究が行われている。これらの情報の再構成の鍵となる技術が、Webページから特定の箇所を自動的に抽出するための情報抽出である。 1・2 Webラッパー Webページからある特定の部分を抽出するためのぷろぐらむや、抽出するための場所を指示する文法はWebラッパーと呼ばれる。ラッパーで抽出した情報は関係データベースのレコードやXMLデータなど必要な形式に変換され、新たなサービスを提供するために用いられる。 1・3 Webラッパーの自動生成 Webラッパーが抽出の対象とするものはフィールド(例えば新聞記事といった限られたジャン