HPで開発され、現在ではオープンソースとなっているOCRソフトウェア「Tesseract-OCR」の調教をしようと思って、Training Tesseract3のページを眺めている。 日本語文書のOCRに利用する「jpn.traineddata」を無理やりテキストエディタで開いてみると、上記育成法解説から予想される通り、ファイルの最初の方に「認識させたい文字一覧」がユニコードテキストとして読み取れる状態で含まれている。 ざっと眺めてみたところ、JIS X 0208(0213)の第一水準漢字のうち、次のものが含まれていない。 穐 袷 吋 蔚 嬰 盈 穎 謁 掩 鴛 鴬 禾 恢 劾 浬 蛎 鈎 劃 廓 鰍 椛 竃 侃 桓 澗 翰 諌 翫 誼 掬 黍 笈 禦 兇 彊 尭 粁 駈 虞 轡 粂 祁 荊 戟 倹 乎 鈷 梧 佼 肱 砿 壕 甑 忽 坤 艮 孜 鴫 悉 蔀 屡 蕊 勺 綬 蒐 輯 酋 藷