2021年12月23日の日記の読者から、NDL古典籍OCR用RoBERTa-small ver.2という単文字日本語モデルをお教えいただいた。以前、私(安岡孝一)が作ったroberta-small-japanese-aozora-charを再トレーニングして、TrOCRのデコーダーに使っているらしい。とりあえず、当該モデルをGoogle Colaboratoryで動かしてみよう。 !pip install transformers !test -f model-ver2.zip || curl -LO https://lab.ndl.go.jp/dataset/ndlkotensekiocr/trocr/model-ver2.zip !test -d model-ver2 || unzip model-ver2.zip from transformers import pipeline f