タグ

ツールと日本語に関するSuperAlloyZZのブックマーク (2)

  • TessOCR

    TessOCRの概要 tesseractは,HP社の研究所で1985〜1995年に開発され,現在はGoogle社に引き継がれた,日語も含む多言語向けの光学文字認識(Optical Character Recognition)エンジンです。その文字認識の対象は,活字体です。tesseractはコマンド・ライン・ツールですので,一般の利用者にとっては使いづらいツールと思われます。すでにTesseractOCR,VietOCR,PDF OCR Xといった,GUIを介してtesseractを駆動するツールが登場しておりますが,古い書籍の文字認識を行う私の用途では,ボックスの編集,文字認識辞書の生成,テキストの編集などの統合的な機能も必要なことから,TessOCRの開発を思い立った次第です。私(岸 和孝)はインターネット上で公開されている多くの情報を参考にしてTessOCRを開発しました。関係者の

  • 1つのソースでEPUBとPDFを生成できる「ReVIEW」を試す - builder by ZDNet Japan

    しばらくお休みしていた連載ですが、いよいよ第1回で目標に掲げていた「電子書籍」の刊行に向けて動き出します。今回は、その序章ともいえる電子書籍生成ツール「ReVIEW」を紹介します。 1つのソースからEPUBとPDFを生成するツール 雑誌ではなく活字主体の「書籍」としてEPUB電子ブックを作成しようと考えたとき、アプローチは大きく2つあると考えています。1つは、WYSIWYGな編集機能を持つオーサリングツールを使う方法。ソースであるテキストファイルと図版を、実際のレイアウトで確認しながら組版作業を進めるというものです。連載でも、これまで「Sigil」などのツールを紹介してきましたが、InDesignやPagesのEPUBエキスポート機能も、このカテゴリに分類されると思います。 もう1つが、WYSIWYGな編集機能を持たないコンバータです。PDFHTMLなど整形済みの文書を変換するため、

    1つのソースでEPUBとPDFを生成できる「ReVIEW」を試す - builder by ZDNet Japan
  • 1