大規模webサイトをリニューアルする際に、コンテンツは書き換えず新テンプレートに当てはめたいという場合があります。 この作業を手動でやるとかなり時間を取られてしまう上、ミスも考えられます。そういったとき、一括して処理する方法として「スクレイピング」という手法があります。 今回はその方法についてまとめて見ました。 スクレイピングとは とりあえず用語の定義は以下のようになっています。 スクレイピング 英語で"scrape"とは「削ること」。 特に、ウェブサイトのデータを必要な部分だけ抽出して利用すること。 "ウェブサイトのデータを必要な部分だけ抽出して利用"がまさにそれです。 例えばbodyタグの中、id="contents"、aタグのhref属性の中身のみなどいろいろな使い方ができます。 準備するもの 準備するものは以下の3つです。 ・CUI上でのphp環境 ・Simple HTM