タグ

textractとawsに関するkoma_gのブックマーク (3)

  • Amazon Textractを試してみた - Qiita

    これまで承認制だったAmazon textractがついに一般公開となりました。 現段階では日リージョンには来ておらず、また、日語にも未対応ですが、今後各種言語に対応していくとのこと。 Textractとは、伝票などの画像ファイルを渡すと、そこに書かれているテキストを読み取った結果を返してくれるサービスです。 通常のOCRのように、読み取った文字列をただ返してくれるだけでなく、顧客名、住所、合計金額などの意味までを読み取ってくれるのが特徴です。 この処理には、機械学習技術を使っているとのこと。 今回はブラウザ上からデータを渡して結果を参照しましたが、REST形式でデータを渡して結果をCSVで受け取ることなどもできます。 どの程度の精度を誇るのか以前から気になっていたので、実際に試してみました。 実験1 帳票データ まず最初に渡したのが以下のデータ。 これはインターネット上から探してき

    Amazon Textractを試してみた - Qiita
  • Amazon Textract を使用したドキュメントからのテキストと構造化データの自動抽出 | Amazon Web Services

    Amazon Web Services ブログ Amazon Textract を使用したドキュメントからのテキストと構造化データの自動抽出 ドキュメントは、金融、医療、法律、および不動産などの数多くの業界全体における記録管理、コミュニケーション、コラボレーション、そして取引のための主な手段です。毎年処理される何百万もの住宅ローン申請、そして何億もの W2 納税申告書は、そのようなドキュメントの数例にすぎません。多くの情報は、非構造化ドキュメントに閉じ込められています。これらのドキュメントの検索と検出、ビジネスプロセスの自動化、およびコンプライアンス管理を可能にするには、時間がかかる複雑なプロセスが必要になるのが通常です。 この記事では、Amazon Textract を利用して、機械学習 (ML) の経験がなくてもスキャンされたドキュメントからテキストとデータを自動的に抽出することができ

    Amazon Textract を使用したドキュメントからのテキストと構造化データの自動抽出 | Amazon Web Services
  • AWS、機械学習を利用したテキスト抽出サービス「Amazon Textract」をGAに

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます Amazon Web Services(AWS)は米国時間5月29日、「Amazon Textract」の一般提供(GA)を開始したと発表した。これは、機械学習(ML)を利用し、テーブルやフォームを含むドキュメントから、テキストやデータを自動的に抽出するフルマネージド型のサービスだ。Textractは、同社の年次イベント「re:Invent 2018」で発表された一連の人工知能AI)活用ツール/サービスの1つであり、MLの専門知識がなくても利用できる。 AWSの最高経営責任者(CEO)Andy Jassy氏はre:Inventで、従来のOCRは「言葉をそのまま読み取るだけで」でそこから有益な情報を取り出すことはできなかったと述べていた

    AWS、機械学習を利用したテキスト抽出サービス「Amazon Textract」をGAに
  • 1