タグ

JPEGに関するmaruyamariumのブックマーク (1)

  • 画像劣化したJPEGファイルからテキスト領域を抽出する技術、富士通研 - ニュース - nikkei BPnet

    富士通研究所は1月27日、JPEG形式で圧縮したカラー文書画像から、高精度でテキスト領域を抽出する技術を開発したと発表した。キーワード検索システムなどと組み合わせ、多色刷りの紙文書を電子化したカラー文書画像を、低コストで管理できるという。 JPEG形式で圧縮したカラー文書画像は、画質劣化によりテキスト領域周辺に色むらが発生する。同社の従来技術では、色むらを文字として認識し、正しくテキスト領域を抽出できないという問題があった。また白抜き文字の場合、周辺の背景を誤ってテキスト領域として抽出してしまうなど、多様な色使いのレイアウトに対応できなかった。 新技術では、テキスト・パターン抽出処理と図表パターン抽出処理を組み合わせ、これらの問題を解決したという。 テキスト・パターン抽出処理は、カラー文書画像から色の違いの大きい部分を検出し、文字の輪郭領域と文字色を判定。色むらによる誤認識を低減し、さまざ

    maruyamarium
    maruyamarium 2006/01/30
    画像からテキスト抽出。低コストのドキュメント管理可能?
  • 1