概要 少量の学習データ(Few-Shot)でも精度が出る深層学習手法が登場してきています。 その一つがSetFitです。テキスト分類向けのFew-Shot学習手法です。 本記事では、SetFitを使うとよい(使わない方がよい)場面を見極めるために、リアルな問題に近い日本語ニュースジャンル分類タスクをお題に、学習データ数を変えながらそこそこ強い日本語T5と戦わせてみます。 忙しい方向けに最初に結論をまとめ、その後にSetFitの使い方の説明を兼ねて実験を再現するためのコードの解説をしていきます。 結論 Livedoor news記事のジャンル分類タスク(9分類タスク)について、クラスあたりのデータ数を2倍ずつ変えながら、SetFitと日本語T5それぞれについて分類精度を計測しました。 結果は下図のとおりです。 なお、クラスあたりのデータ数は全クラスで同一(均衡)になるようにランダムサンプリン