※ こちらは「 ヤプリアドベントカレンダー 」の2日目,「 Aidemy Advent Calendar 2022 」の3日目にクロスエントリさせていただいた記事です.この後も続々と記事が投稿されていきますので,是非ご覧ください はじめに ニュースサイトを定期的にスクレイピングし,記事の内容を Google ドライブへ保存するデータパイプラインを作ってみました( そして途中で詰まりました…(後述) ).この記事では,作る際に考えたことやつまづいたことなどをまとめています. やりたいこと ニュースサイトを定期的にスクレイピングして記事本文から必要なデータを抽出&蓄積し,分析等で使えるようにすること 複数のニュースサイトでも対応可能にすること 作りたかったもの 上記やりたいことを実現するために,下図のパイプラインを考えました.イメージとしては,Google Cloud Storage (GCS