近年、災害による資料アーカイブの必要性や専門家の減少、資料の経年劣化などを理由に、歴史的資料のデジタル化・テキストデータ化が求められている。しかし、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていた。 今回発表された技術は、江戸期以前のくずし字を自動で判読し、テキストデータ化することを可能にするもの。同社は2013年より、さまざまな書籍をデータ化する「高精度全文テキスト化サービス」を提供しており、同サービスで確立したシステム基盤に、公立はこだて未来大学の寺沢憲吾准教授が開発した「文書画像検索システム」を組み合わせることで、同技術を実現したそうだ。2014年度に実施した原理検証実験では、くずし字の書物を80%以上の精度でOCR処理することに成功した。
極秘システム「PRISM」を用いてアメリカの情報機関が個人情報を参照していたことが発覚していますが、これらの情報機関にデータ収集されないようにOCRなどでのテキスト解析が困難なフォント「ZXX」、がロードアイランド・デザイン・スクールの卒業生であるSang Munさんにより製作されました。 Making Democracy Legible: A Defiant Typeface — The Gradient — Walker Art Center http://blogs.walkerart.org/design/2013/06/20/sang-mun-defiant-typeface-nsa-privacy/ Introducing the NSA-Proof Font | Motherboard http://motherboard.vice.com/blog/introducing-
ニュージーランド国立図書館が、2001年から実施している新聞デジタル化プロジェクト(ウェブサイト“Papers Past”で公開中)に関連して、デジタル化した画像をOCRを使ってテキスト化する際に、白黒二値(bitonial)画像とグレイスケール(greyscale)画像とで正確さにどの程度相違があるかを調査した結果を、D-Lib Magazine誌2009年3/4月号で発表しています。これによると、白黒二値の方が少し正確性が高いが、双方に有意な差は見られなかったとのことで、プロジェクトチームは同館に対し、当面は白黒二値でのデジタル化を続けることと、継続的に関連情報を収集しデジタル化方針をレビューすることを勧告しています。 Tracy Powell ; Gordon Paynter. Going Grey?: Comparing the OCR Accuracy Levels of Bit
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く