マコなり社長 @mako_yukinari あ…ありのまま 今 起こった事を話すぜ! 「おれは Google Driveで画像を開いたと 思ったら いつのまにか文字がすべて書き起こされていた」 な… 何を言っているのか わからねーと思うが おれも 何をされたのか わからなかった… pic.twitter.com/DFGD03VH9z 2018-02-01 09:46:18
スキャンしてデータ化された書類からテキストを抽出できれば、再利用が容易になることで資料作成などの作業が捗る。これから新たに書類をスキャンするのであればスキャナ側の設定でOCRをオンにしておけばよいし、すでにスキャンした後であればOCR機能を持つソフトを用いてあらためて処理する方法もあるが、いずれの方法も使えない場合、オンラインサービスを使うのが手軽だ。 OCR機能を持つオンラインサービスといえば、かつては日本語に対応しないケースがほとんどだったが、最近では日本語固有の縦書きも認識できるなど、高い実用性を備えたサービスが増えつつある。今回は、スキャン書類から日本語テキストを取り出すにあたって実用レベルの認識精度を備えた3つのオンラインサービスを、横書きおよび縦書きでの和英混じり文の認識結果とともに紹介しよう。 なお今回はPDF(単一ページ)のアップロードとTXTのダウンロードに対応し、縦書き
How to watch Polaris Dawn astronauts attempt the first commercial spacewalk
Evernoteは、文字列を含む画像をアップロードするとサーバ側でOCR処理をするので、テキストでの検索が可能だ。このテキストデータを抽出する方法を紹介しよう。 「Evernote」は、文字列を含む画像をアップロードするとサーバ側でOCR処理をする。それにより、テキストでの検索が可能となっている。任意の語句で検索をすると、画像上の文字列を黄色くハイライト表示するので、文字列をテキストデータとして認識しているのが分かるというわけだ。 逆に言うと、画像からテキストデータを取り出したければ、わざわざOCRソフトを使わなくともEvernoteにアップロードしてOCR処理すればよい。だが、残念ながらOCR処理したテキストデータを画面上で範囲選択してコピーすることはできない。こうした場合、OCRしたノートをエクスポートした後ちょっと加工することで、テキストデータを取り出せる。以下、その手順を紹介しよう
凸版印刷は7月3日、江戸期以前のくずし字で記されている古典籍の文字を判別し、テキストデータ化するOCR技術を開発したと発表した。 専門家の減少、資料の経年劣化という問題に加え、大規模災害によって失われる可能性もある歴史資料のデジタル化の必要性が高まっている。しかし総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は専門家による判読が必要なためテキストデータ化が遅れていた。 凸版印刷では、古文書を高い精度で出来すとデータ化する「高精度全文テキスト化サービス」を2013年から提供、この技術をベースに公立学校法人公立はこだて未来大学が開発した「文書画像で検索システム」と組み合わせ、くずし字で記されている古典籍のOCR技術を開発した。 技術としては、すでにテキストデータ化済みの文献をくずし字のデータベースとして用いることでくずし字を判読するもの。原理検証実験では、くずし字で記さ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く