中国の富士通研究開発中心(FRDC)は2月21日、古文書文字を画像認識するディープラーニングに改良を加え、少ない数の学習データでも高精度で認識できる仕組みを開発したと発表した。従来技術と比べると、1文字当たり約70%少ないデータ数で同じ精度を実現でき、古文書文字を電子化する作業の効率化につながるという。 ディープラーニングを用いた従来の文字認識では、あらかじめ文字画像と正解の文字を正しくひも付けたデータを認識エンジンに学習させる。学習するデータが多いほど認識精度は高くなるが、中国の古文書文字だとさまざまな書体がある上に、同じ文字でも字形が異なる場合もあり、十分な量の学習データを用意することが難しかった。 新技術では、これまでは正解の文字とひも付かずに学習データに使われていなかった文字画像データも学習に活用。(1)認識エンジンが文字画像に、正解と考えられる「仮の文字ラベル」を与える、(2)そ
![少ない学習データでも高精度で文字認識 富士通が開発、ディープラーニングを効率化](https://cdn-ak-scissors.b.st-hatena.com/image/square/ced0f1af169bae8d7728613050a6c6cc6459c0a6/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fnews%2Farticles%2F1702%2F22%2Fl_kf_fujitsu_01.jpg)