TL;DR 日本語 Wikipedia で学習した BERT モデルを公開しました yoheikikuta/bert-japanese livedoor ニュースコーパスで finetuning して良い性能を発揮することも確認 まあまあコスト掛かっているので、役に立った場合は BOOTH の商品ページ でサポートしてくれると嬉しい BERT の登場以降、自然言語処理の応用タスクを気軽に解く機運が高まってきたように思う。 自分はもともと画像分析の方に重きを置いていたが、最近は割と自然言語処理の応用タスクに興味があって色々やっていた。 BERT が決定版とも思わないし今後もどんどん改良はされていくとは思うが、ともかく機械学習モデルを利用する側にとってはかなり気軽に自然言語処理の応用タスクを解けるようになってきている。良いことだ。 これは誰か日本語の tokenizer を使った pretra