UD_Belarusian-HSEを使って、ベラルーシ語品詞付与・係り受け解析モデルdeberta-base-belarusian-uposを試作してみた。UD_Belarusian-HSEには「ZERO WIDTH SPACE」(U+200B)がヤタラメッタラ紛れ込んでいる、という罠があって、正直、トークナイザ泣かせだったりする。でも、ベラルーシ語のUniversal DependenciesコーパスはUD_Belarusian-HSEしかないので、まあ、これで頑張るしかないわけだ。Google Colaboratoryで動かしてみよう。 !pip install esupar import esupar nlp=esupar.load("KoichiYasuoka/deberta-base-belarusian-upos") doc=nlp("Цяпер мора яшчэ можа