タグ

technologyとdocumentに関するmyrmecoleonのブックマーク (4)

  • 貴重な資料を後世に--江戸期以前の“くずし字”を判読するOCR技術が凸版印刷から [インターネットコム]

    近年、災害による資料アーカイブの必要性や専門家の減少、資料の経年劣化などを理由に、歴史的資料のデジタル化・テキストデータ化が求められている。しかし、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていた。 今回発表された技術は、江戸期以前のくずし字を自動で判読し、テキストデータ化することを可能にするもの。同社は2013年より、さまざまな書籍をデータ化する「高精度全文テキスト化サービス」を提供しており、同サービスで確立したシステム基盤に、公立はこだて未来大学の寺沢憲吾准教授が開発した「文書画像検索システム」を組み合わせることで、同技術を実現したそうだ。2014年度に実施した原理検証実験では、くずし字の書物を80%以上の精度でOCR処理することに成功した。

    貴重な資料を後世に--江戸期以前の“くずし字”を判読するOCR技術が凸版印刷から [インターネットコム]
  • 時事ドットコム:公文書修復技術者らに総裁賞=人事院

    公文書修復技術者らに総裁賞=人事院 公文書修復技術者らに総裁賞=人事院 人事院は30日、国民からの信頼を高めた国家公務員を表彰する人事院総裁賞の受賞者を発表した。個人部門では、和紙やのりを用いた歴史的公文書の修復技術を確立した、独立行政法人国立公文書館業務課修復係長・有友至氏(59)に決定した。授与式は12月9日に行われる。  職域部門は、▽膨大な量の登記簿を20年以上かけてコンピューター化した法務省民事局総務課登記情報センター室▽最西端の沖縄県与那国島で税関業務に従事する財務省石垣税関支署与那国監視署▽瀬戸内海で長年浮遊ごみの回収作業や船舶の安全航行に貢献した国土交通省四国地方整備局海洋環境整備事業実施グループ▽最東端の東京都南鳥島で大型電波標識局の機能維持に尽力した海上保安庁千葉ロランセンター南鳥島ロランC局−の4団体を選んだ。 (2009/11/30-16:43)

  • 世界一薄い和紙が修復する父子の“絆”:日経ビジネスオンライン

    世界で最も薄い和紙に触れた。1平方メートルあたりの重さは3.5グラム。超極薄の典具帖紙(てんぐじょうし)、土佐で発達した極めて薄く強靭な紙でタイプライター用などに利用されてきた和紙である。手に取った感触では重さが感じられない。新聞紙に被せてみれば、鮮明に文字を読むことができる。 純白に漂白された紙だが塩素を使用しない独自の製法で漉かれている。そのために経年の酸性劣化が起こりにくいという特質を持っている。この特性に注目したのは文化財や美術品を修復する関係者だった。

    世界一薄い和紙が修復する父子の“絆”:日経ビジネスオンライン
    myrmecoleon
    myrmecoleon 2009/10/02
    「1平方メートル当たり3.5グラム」すげえ……まさに職人芸。「3グラム、2.7グラムといった和紙のサンプルを完成」まだ発展しているのか……。「「それは安定的にできるようになってからにしようや」と父に反論した」
  • KOF 2008 の発表資料 - naoyaのはてなダイアリー

    KOF 2008 での発表資料「はてな流大規模データ処理」を以下にアップロードしました。 http://bloghackers.net/~naoya/ppt/081108huge_data.ppt 一部参考文献からの引用 (Introduction to Information Retrieval から Vector space model の図、たつをの ChangeLog から転置インデックスの図) があります。この場を借りて感謝。 環境によってはおそらくフォントの表示がいまいちだと思いますが、ご了承ください。 追記 SlideShare にアップロードしました。 081108huge_data.pptView SlideShare presentation or Upload your own. (tags: linux mysql) 追記: メモリはディスクの 150 倍について

    KOF 2008 の発表資料 - naoyaのはてなダイアリー
    myrmecoleon
    myrmecoleon 2008/11/13
    ドキュメントを無限次元のベクトル空間化して類似度を求めるアルゴリズムとか使ってるのか。すごい面白い /格ゲーネタだと思ってスルーしてた派。
  • 1