エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Amazon TextractでPDFのテキストを抽出してみる | DevelopersIO
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Amazon TextractでPDFのテキストを抽出してみる | DevelopersIO
Amazon Textractはドキュメントからテキストやデータを簡単に自動抽出してくれる機械学習のサービスです... Amazon Textractはドキュメントからテキストやデータを簡単に自動抽出してくれる機械学習のサービスです。 設定やテンプレートが不要, 単純なOCRだけではなく手書き文字の認識、領収書、表やフォームなどの構造化データを抽出する, Amazon Augmented AI を使用して人間によるレビューを追加してモデルを監視し、機密データのレビューを実行 するといった特徴があります。 数時間、数日かかる手作業とは対照的に、Textractは数分でデータを抽出します。 前回までにpythonのライブラリを用いてpdfのテキストを抽出することを試していましたが、確かにただOCRをしただけでは厳しいなと感じました。 なので今回はこのような機械学習を組み込んでいるサービスを使ってpdfからテキスト抽出をしてみたいと思います。 Amazon Textractで検出と抽出できるテキストのタイプ 標準