S3 バケットに PDF を置いたらその内容のテキストを処理して結果をまた S3 に置く、という機能を実装する機会がありました。勉強もかねて調べながらやっていたところで、ある程度かたちになってきたので、コアとなるところをご紹介します。 はじめに 故あって S3 バケットに PDF を置いたらその内容のテキストを処理して結果をまた S3 に置く という機能を実装する機会がありました。勉強もかねて調べながらやっていたところで、ある程度かたちになってきたので、コアとなるところをブログにしておきたいと思います。 Goal 下記のような状態をゴールとします。 特定の S3 バケットに PDF を置いたら、テキストデータだけ抽出して別の S3 バケットに保存される環境を作る PDF -> テキストの変換は AWS Lambda を使う(言語は Python 3.6 ) AWS Lambda Layer