タグ

2017年4月25日のブックマーク (2件)

  • 凸版印刷、くずし字で書かれた資料をOCRでテキスト化するビューアを開発

    凸版印刷は25日、光学文字認識(OCR)を応用し、江戸期以前のくずし字で記されている歴史的資料に誰でも容易にアクセスできるWebビューア「ふみのは」を開発したことを発表した。同ビューアを使った公開用データ制作サービスの提供を、今年5月から開始予定。 このたび開発された「ふみのは」は、江戸期以前のくずし字(ひらがな、カタカナ、漢字を崩して書いた手書き文字)で記されている古典籍の文字をOCRで判別して、テキストデータに変換するビューア。一般的なWebブラウザを使って、歴史的資料の原画像の上に翻刻(古典籍などの古い文献を現代の活字等を使って一般に読める形式にすること)や多言語翻訳文を重ねてHTML形式で表示するため、Webブラウザさえあればどこでも表示できる。 従来の原画像と翻刻文の画像を重ねて表示する方法とは異なり、翻刻文をテキストとして扱えるため、全文検索やインターネット上の横断検索など

    凸版印刷、くずし字で書かれた資料をOCRでテキスト化するビューアを開発
  • 「此」の画数問題 : ウェブロギスティック雑記

    ※公開時の記事から文の一部を削除しましたが、内容に変更はございません。 『全訳漢辞海』の音訓索引の「シ」の漢字一覧(画数順に並べられている)を見て、あることに気が付いた。 「此」の総画数は6画とある。 「紫」の総画数は12画とある。 「柴」の総画数は9画とある。 ・・・これ、おかしくないか? 此が6画で、木が4画なら、「柴」の画数は普通に考えて10画だろう。 ・・・なぜ9画なんだ? 手持ちの電子辞書を取り出して、内蔵の『新漢語林』を調べて見ると、「柴」の総画数は10画であった。 「柴」は木部だが、その部首外画数を、『漢辞海』は5画とし、『新漢語林』は6画としているのである。 そこで、『漢辞海』で、「此」を構成要素に持つ他の字も見てみると、以下の結果となった。 呰・・・8画(口+5画) 眥・・・10画(目+5画) 訾・・・12画(言+5画) 雌・・・14画(隹+6画) 髭・・・15画(髟+