Amazon TextractでPDFのテキストを抽出してみる | DevelopersIO

テクノロジーカテゴリーの変更を依頼記事元:

dev.classmethod.jp

2 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Amazon TextractでPDFのテキストを抽出してみる | DevelopersIO

Amazon Textractはドキュメントからテキストやデータを簡単に自動抽出してくれる機械学習のサービスです... Amazon Textractはドキュメントからテキストやデータを簡単に自動抽出してくれる機械学習のサービスです。設定やテンプレートが不要, 単純なOCRだけではなく手書き文字の認識、領収書、表やフォームなどの構造化データを抽出する, Amazon Augmented AI を使用して人間によるレビューを追加してモデルを監視し、機密データのレビューを実行　するといった特徴があります。数時間、数日かかる手作業とは対照的に、Textractは数分でデータを抽出します。前回までにpythonのライブラリを用いてpdfのテキストを抽出することを試していましたが、確かにただOCRをしただけでは厳しいなと感じました。なので今回はこのような機械学習を組み込んでいるサービスを使ってpdfからテキスト抽出をしてみたいと思います。 Amazon Textractで検出と抽出できるテキストのタイプ標準

ブックマークしたユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx