執筆者 Kaoru Nasuno 本節では、ウェブサイトのクローリングとスクレイピングについて説明します。 クローリングはウェブサイトからHTMLや任意の情報を取得する技術・行為で、 スクレイピングは取得したHTMLから任意の情報を抽出する技術・行為のことです。 たとえば、あるブログの特徴を分析したい場合を考えてみましょう。 この場合、作業の流れは そのブログサイトをクローリングする。 クローリングしたHTMLからタイトルや記事の本文をスクレイピングする。 スクレイピングしたタイトルや記事の本文をテキスト解析する。 というようになります。 本節では、この作業の流れの1.と2.について説明します。 クローリングの技術にはスクレイピングの技術が含まれるため、 ここでは、まず、HTMLについておさらいし、次に、スクレイピングについて、最後に、クローリングについて説明します。 HTMLのおさらい