Llama3.1をファインチューニングして性能がすごく良くなったという「Reflection-70B」だが、実はLlama3.1ではなくてLlama3をファインチューニングしたのでは?という疑惑もある。 「リフレクション Llama 3.1 70B」は、Llama 3.0 上に構築されたベンチマーク テスト セットで直接トレーニングされた LoRA という噂が流れてきた どうなんだろう? 確かにこっそりやられるとわからないし、ベンチマークの手法見直した方がいいよねえ…https://t.co/q1P0N3pUVB — AI𝕏サトシ⏩ (@AiXsatoshi) September 7, 2024 まあとりあえず百聞は一見に如かず、なので触ってみることにした。 Reflectionの特徴は、その名の通り「反射リフレクション」という仕組みによって自己批判的に推論していくこと。 まずはRefl