タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

地獄とOCRに関するsteropeのブックマーク (1)

  • クソPDF戦記 - (。・ω・。)ノ・☆':*;':*

    解析結果が書かれたPDFををplaintextに変換しようとして一週間もかかってしまってほんまクソ、ということでメモを残しておく。 そもそも何でPDFなのか? この業界、電子納品とか言ってるけど単に印刷時の出力先がプリンタドライバからPDF生成ドライバに変わった程度で印刷する人が変わっただけなのホントに闇— にょる。 (@W53SA) 2015, 9月 3 ミッション:plaintextがedocument library pdf filterとかいうウンコライブラリでPDF化された5000ページぐらいあるPDFから、100ページぐらいの表組みをplaintextに戻し、手元での解析結果とWinMergeで比較。 試した順に書いていきます。 Adobe Reader編 最初に試したのはAdobe Readerからのコピペ。 結果:「数字が一文字奥に空白が入った上に表組みが全部飛ぶ」 何が起

    クソPDF戦記 - (。・ω・。)ノ・☆':*;':*
  • 1