自然言語処理において、テキストをその意味を考慮しつつ固定長のベクトルに変換する埋め込みモデルは重要です。文の意味をよく表現したベクトルを作ることができれば、テキスト分類や情報検索、文類似度など、さまざまなタスクで役立ちます。本記事では、Googleが開発した多言語の埋め込みモデル「LaBSE」を使って、テキスト分類をする方法を紹介します。単なるテキスト分類では面白くないため、学習には英語のデータセットを使い、評価には日本語とフランス語のデータセットを使います。 記事では要点だけを紹介するので、コードについては以下のノートブックを参照してください。 Text Classification with LaBSE LaBSE LaBSEは、Googleが「Language-agnostic BERT Sentence Embedding」という論文で提案したモデルです。109の言語に対応しており
![Googleが開発した多言語の埋め込みモデル「LaBSE」を使って多言語のテキスト分類 - Ahogrammer](https://cdn-ak-scissors.b.st-hatena.com/image/square/e58ae17946b935bc85d6970237cfb85fb1a7a70f/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2FH%2FHironsan%2F20200916%2F20200916145423.png)