S3 バケットに PDF を置いたらその内容のテキストを処理して結果をまた S3 に置く、という機能を実装する機会がありました。勉強もかねて調べながらやっていたところで、ある程度かたちになってきたので、コアとなるところをご紹介します。 はじめに 故あって S3 バケットに PDF を置いたらその内容のテキストを処理して結果をまた S3 に置く という機能を実装する機会がありました。勉強もかねて調べながらやっていたところで、ある程度かたちになってきたので、コアとなるところをブログにしておきたいと思います。 Goal 下記のような状態をゴールとします。 特定の S3 バケットに PDF を置いたら、テキストデータだけ抽出して別の S3 バケットに保存される環境を作る PDF -> テキストの変換は AWS Lambda を使う(言語は Python 3.6 ) AWS Lambda Layer
![S3に置いたPDFをテキストに変換するLambda関数+LambdaレイヤーをCFnで構築する | DevelopersIO](https://cdn-ak-scissors.b.st-hatena.com/image/square/077e7208313e69c09e715b9a5c4c45694b1e7a6a/height=288;version=1;width=512/https%3A%2F%2Fdevio2023-media.developers.io%2Fwp-content%2Fuploads%2F2018%2F11%2Feyecatch_aws-lambda_1200x630.jpeg)