タグ

2018年11月21日のブックマーク (2件)

  • Re: GoogleのBERTは漢文に返り点を打つことができるのか | yasuokaの日記 | スラド

    私(安岡孝一)の一昨日・昨日の日記の読者から、このツイートをお教えいただいた。ちょうど手元に工藤拓『形態素解析の理論と実装』(近代科学社、2018年9月)が届いて、ざっと読み始めたところだったのだけど、そっちはとりあえずおいといて、私個人としては、BERTの事前学習モデルに古典中国語(Classical Chinese)がほしい。ただ、現時点では「We do not plan to release more single-language models」らしいので、やるなら自分でやらねばならない、ということのようだ。 古典中国語のWikipediaは正直アテにならないので、事前学習の元ネタとしては、まあ、四書五経を中心とした古典群ということになる。kanripoで言えば、周易・尚書・毛詩・禮記・春秋左傳・孟子・論語あたりから始めて、適宜、テキストを拾ってくることになるだろう。ただ、古典中国

  • GoogleのBERTは漢文に返り点を打つことができるのか | yasuokaの日記 | スラド

    『漢文の依存文法解析と返り点の関係について』(日漢字学会第一回研究大会(2018年12月1日)発表予定)の発表準備をしていたところ、返り点程度ならGoogleのBERTを使えば打てるのではないか、という趣旨の御意見をいただいた。まあ、打てるかもしれないな、と思って、ここ5日間ほどBERT-Baseの2つのモデルと戯れてみたが、現時点での私(安岡孝一)の感触では、漢文の返り点はBERTの適用事例としては、かなり難しいのではないかと思える。 そもそもMultilingualモデルにもChineseモデルにも、古典中国語(Classical Chinese)が含まれておらず、いずれのvocab.txtもちょっとつらい。しかも不思議なことに、Chineseモデルのvocab.txtに「しにはとんとんワークケートを」なんていうvocabularyが含まれていて、どうなってるのかイマイチわからない。