本文はHTMLでなくプレーンテキスト。だが、スクレイピングに大問題。 成果物 github 動作確認 以下のような手順でテストデータを用意する。 NewsApiを取得する(NewsApiでカテゴリ別にニュースを取得する) 1で取得したJSONファイルをnews.jsonとでもリネームしておく 2のJSONファイルをコピーする 3のうち最新(先頭)の2件くらいを削除してnews_old.jsonとでもリネームしておく SQLite3DBファイル作成する(NewsApiで得たニュースを保存するSQLite3テーブルを考える) 3のJSONファイルをDBファイルに取り込む(NewsApiのJSONからSQLite3DBファイルへ挿入する) 6の全レコードに対してbody=''してしまう この状態で、以下コードを実行し、最新2件だけが追加されたことを確認する。そしてHTMLから本文を抽出されている