2015年12月23日23:17 AWS JavaScript AWS Lambdaを使ってサーバレスでテキスト抽出するぞ!という気持ち この記事は 今年もやるよ!AWS Lambda縛り Advent Calendar 2015 の23日目です。 「何か書くぞ!」と思いエントリーしてみたもののどうしよう、、と思っていたのですが、そういえば個人的に Apache Tika というのが最近気になっていたので使ってみることに。 Apache Tika これは、PDFやエクセル等のファイルから、テキストデータやメタデータを抽出してくれるという便利ライブラリです。これを使って、ファイルが登録されたら裏でテキストデータを抽出して、それを全文検索で引っかかるようにする…みたいなことが出来ると楽しそうです。 Apache Tika自体はJavaのライブラリなのですが、Node.jsから扱うためのライブラ