###環境: Mac OS 10.13.6, Python 3.8.5, Scrapy 2.2.1, botocore/2.0.0dev38, scrapy-s3pipeline 0.3.0, readability-lxml 0.8.1 前提・実現したいこと クローリングフレームワークのScrapyを使用してAWS S3のバケットにアップロードしたクロール結果htmlファイルを Pythonプログラムから参照し、htmlから本文抽出して検索エンジンのElasticsearchにインデックスする正しい方法を教えていただきたいです。 今回は以下の書籍の内容を組み合わせて、実験を行なっています。 「Python クローリング&スクレイピング データ収集・解析のための実践開発ガイド」 https://scraping-book.com/ 【クロール & S3へアップロード】 はてなブックマークの

