2022年度人工知能学会全国大会(第36回) チュートリアル講演資料
BERT日本語Pretrainedモデル † 近年提案されたBERTが様々なタスクで精度向上を達成しています。BERTの公式サイトでは英語pretrainedモデルや多言語pretrainedモデルが公開されており、そのモデルを使って対象タスク(例: 評判分析)でfinetuningすることによってそのタスクを高精度に解くことができます。 多言語pretrainedモデルには日本語も含まれていますので日本語のタスクに多言語pretrainedモデルを利用することも可能ですが、基本単位がほぼ文字となっていることは適切ではないと考えます。そこで、入力テキストを形態素解析し、形態素をsubwordに分割したものを基本単位とし、日本語テキストのみ(Wikipediaを利用)でpretrainingしました。 2022年1月21日追記: このモデルは古くなっています。RoBERTa-base 日本語
どうも、大阪DI部の大澤です。 汎用言語表現モデルBERTの日本語Wikipediaで事前学習済みのモデルがあったので、BERTモデルを使ったテキストの埋め込みをやってみたいと思います。 BERT日本語Pretrainedモデル - KUROHASHI-KAWAHARA LAB 以下のエントリではbert-as-serviceを使ったテキストの埋め込みを紹介しました。今回はBERTのリポジトリで公開されているextract_features.pyを使って、テキストの埋め込みを試します。 bert-as-serviceを使って日本語の文章を埋め込み表現ベクトルに変換してみる | DevelopersIO BERT(Bidirectional Encoder Representations from Transformers) BERTはGoogleが開発した汎用言語表現モデルです。機械学習で
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く