[B! OCR] kinohikoのブックマーク

高精度全文テキスト化サービス| TOPPAN SOLUTION

文献・資料のOCRテキスト化を独自の技術で高精度かつスピーディに！セキュリティ対策も柔軟に対応します。「高精度OCR全文テキスト化サービス」は、独自のOCR技術や校正システムで、対応困難だった文字も、活用しやすい高品質・多彩なデータ形式でスピーディにご提供。紙の文献・資料のテキストデータ化／活用を強力にサポートします。デジタルアーカイブシステムの構築も含め「最適な文書資産のデジタル化」をご支援します。

kinohiko 2020/04/29

OCR

リンク

新聞記事100年分を電子データに、日経が「AI OCR」で読み取りへ

日本経済新聞社が100年分の新聞記事をテキストデータにする取り組みを進めている。AI（人工知能）を組み込んだOCR（光学的文字認識）で紙の新聞を効率的に読み取る。読み取り対象には約140年前の1876年に創刊された「中外物価新報」などを含む。中外物価新報は日本経済新聞の前身となった新聞だ。2019年5月以降、テキストデータにする作業を始める予定だ。日本経済新聞社は1970年代から約40年、新聞に掲載した記事のテキストデータを管理してきた。しかしそれ以前の100年分の新聞についてはテキストデータは無く、原本をスキャンしたイメージデータだけを保存していた。「過去の新聞の内容をテキストデータにした上で記事ごとにタグ情報を加えれば、検索しやすくなる。かつての日本の経済状況を把握したり分析したりするのも容易になる」。同社の山田剛日経イノベーション・ラボ上席研究員は今回の取り組みの狙いをこう説明す

kinohiko 2020/04/29

OCR

リンク

Google Cloud Vison APIでNDLのデジコレ画像をひたすらOCRをかけてみる（その1） | kzakza

Google Cloud Vison APIで　光学式文字認識（OCR）をかけたり、画像に含まれているものの解析ができるようになっていますので、以下で公開されている方法とスクリプトで国立国会図書館デジタルコレクションで公開されている画像データをOCRにかけてみました、のその１（気が向けば、いろいろと試してみたいので、引き続きやってみるつもり）。 ※2017/8/19 追記このエントリでは、レイアウトの認識に難ありという話になってしまいましたが、レイアントを認識できる方法で改めて同じ画像をGoogleのOCRにかけたものを以下に紹介しています。 Google Cloud Vison APIでNDLのデジコレ画像をひたすらOCRをかけてみる（その1　再戦）正確すぎる！Googleの画像認識APIで超ラクラクOCR（macOS・ていねい解説） : GOROLIB DESIGN – はやさはち