タグ

2008年9月5日のブックマーク (2件)

  • Kanjibukuro

    漢字袋は安岡孝一と安岡素子が共同で製作中の「コンピュータ異体字典」です。 日中国台湾のコンピュータで常用される漢字とそれらの異体字を、異体字群ごとに各ページにまとめています。 日の漢字は音訓で検索可能です。 JIS X 0208のひらがなで入力して下さい。 中国の漢字(簡化字)は拼音で検索可能です。 声調符号や「¨」は除いて、ASCIIの英小文字で入力して下さい。 台湾の漢字は総画数で検索可能です。 ASCIIの数字で入力して下さい。 Mosaicではうまく表示できないようです。 NetscapeやInternet Explorerをお使い下さい。 表示される字形は、規格票のものとは微妙に異なる場合があります。 詳しくは規格票をごらん下さい。 異体字データのASCIIテキスト版はここにあります。 関連発表文献の一覧はここにあります。

  • yasuokaの日記 | スラド

    2021年12月23日の日記の読者から、NDL古典籍OCR用RoBERTa-small ver.2という単文字日語モデルをお教えいただいた。以前、私(安岡孝一)が作ったroberta-small-japanese-aozora-charを再トレーニングして、TrOCRのデコーダーに使っているらしい。とりあえず、当該モデルをGoogle Colaboratoryで動かしてみよう。 !pip install transformers !test -f model-ver2.zip || curl -LO https://lab.ndl.go.jp/dataset/ndlkotensekiocr/trocr/model-ver2.zip !test -d model-ver2 || unzip model-ver2.zip from transformers import pipeline f

    cavorite
    cavorite 2008/09/05