以前の記事で、AIのべりすとを使って頑張ったことを褒めてもらえないかを試していました。 GPT-3などの大規模言語モデルでは、推論タスクの性能を高めるためにいろいろな工夫が研究されており、今回はそれらの研究結果をまねることで褒められの精度を上げられないか試してみました。 Flan-PaLMの論文を参考にしているので、まずはこの論文に含まれている手法を少し説明します。 Flan-PaLMの論文2022/10に、Scaling Instruction-Finetuned Language Modelsというタイトルで、難しい推論タスクで高い性能をもつ言語モデルが発表されました。 これは、540Bパラメタを持つPaLMを Instruction finetuning という手法で訓練したものです。 論文のFig.3に、学習データの作り方のアイデアが記載されています(以下はDeepLで日本語訳した
![Flan-PaLMの学習に使われているpromptの手法を使ってAIに褒めてもらう|oshizo](https://cdn-ak-scissors.b.st-hatena.com/image/square/fd0f02ada2f79d7590984a26baedbcca88c0d910/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F91017130%2Frectangle_large_type_2_8e948a8b1889f70fcfd9410c4f42b18b.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)