中規模モデルクラス、恋愛小説部門の評価です。 はじめに近年、ローカル環境で動作する比較的小規模なLLM(Large Language Model)の性能が向上しています。本記事では、パラメータ数20~30B程度のローカルLLM(量子化を行うと24GB VRAM程度で動作するもの)を中心に、それらのLLMの小説生成能力を、より大規模なクラウド型LLMを用いて評価する試みについて報告します。 なお、試行回数は生成、評価とも1回のみ、プロンプトや生成設定なども練れていませんので、参考程度にお読みください。またこの記事には一部Claude 3.5 Sonnetに書いてもらった部分があります。 (追加)以下の記事で生成された各小説をすぐに読めるよう公開しました。 評価手法の検討評価の課題小説の評価には通常、人間による読解と評価が必要です。しかし、これには以下のような課題があります: 評価に多大な時間
![ローカルLLMの小説生成能力を評価する:中規模モデル編|Kohya S.](https://cdn-ak-scissors.b.st-hatena.com/image/square/7c99718be9df0d99ee38e171c28b01570497968e/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F173555744%2Frectangle_large_type_2_e6ab99bd992837d915c81370c65af3d1.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)