まとめ LLMのファインチューニングにおいて、データセットは重要なものとなりつつある 以前までは人力で作る必要があったが、プロンプトが効く7Bモデル(Calm2-chat)を用いることで、LLMでファインチューニング用データセットを作ることができる データセットを作成しつつ、動的にプロンプトを修正していく手法が相当よかった 導入 LLMのファインチューニングには、大量のデータセットが必要です。良く言われているのは「少なくとも数百~数千はあった方が良い」というものです。翻訳など、皆が使うであろうようなタスクのデータセットは存在する一方で、「女の子の日記をLLMで作りたい」のような、完全に自分の癖に従ったようなデータセットは基本的には存在しません。一から自分で作っても良いのですが、人間の時間とやる気は有限なため、かなり無謀な挑戦と言えるでしょう。 この作業にLLMを用いることで、労力を最小限ま