NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか?〜CID/GIDと原ノ味フォント〜」をテーマに話します。続いては、文字化けが起きたPDFの修正方法と、文字化けを起こさない対策方法について。前回はこちらから。 もらったPDFの文字化けを修正するには? 細田真道氏(以下、細田):文字化けを修正するにはどうすればいいかを説明します。誰かからもらったPDFが文字化けしていたとします。データ分析したいとか、検索したいときに困りますね。一番簡単なのは、正規化しちゃう。これはテキストを抽出してから、問題のブロックの文字を対応する通常の漢字に置き換えるように正規化すれば、データ分析ということならこれでできると思います。 あとはちょっと荒