執筆者 Kaoru Nasuno 本節では、ウェブサイトのクローリングとスクレイピングについて説明します。 クローリングはウェブサイトからHTMLや任意の情報を取得する技術・行為で、 スクレイピングは取得したHTMLから任意の情報を抽出する技術・行為のことです。 たとえば、あるブログの特徴を分析したい場合を考えてみましょう。 この場合、作業の流れは そのブログサイトをクローリングする。 クローリングしたHTMLからタイトルや記事の本文をスクレイピングする。 スクレイピングしたタイトルや記事の本文をテキスト解析する。 というようになります。 本節では、この作業の流れの1.と2.について説明します。 クローリングの技術にはスクレイピングの技術が含まれるため、 ここでは、まず、HTMLについておさらいし、次に、スクレイピングについて、最後に、クローリングについて説明します。 HTMLのおさらい
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く