先日、某無料オンライン大学講座にて、「白川フォント」というものが無料で公開されていることを知りました。 これは、甲骨・金文などの古代文字のためのもので、『現代の漢字を入力するのと同じように、簡単に古代文字の入力が出来ます。』(引用:白川フォント)とのことです。つまり、外字ではなく、対応する現代漢字と同じ文字コードが使われているとのことでした。 また、ちょうどOCRについて調べていたこともあり、このフォントで書かれた文字列を読み取ってみたいと思いました。フォントで提供されている文字が外字になっていないということは、甲骨文字フォントの文字認識がうまくいけば、甲骨文字を現在の文字に変換できるはずです。 では、OCRの基本的な処理を、オープンソースの「Tesseract」を用いて、実際にやってみます! < 実施環境 > 実行マシン: Windows 10 Pro 64bit 利用した主要なソフトウ