GPT3.5とGPT4とでは歴然の差があるとは感じる 関数としての柔軟性があきらかに違う、と思う でもGPT4とClaude 3 Sonnetとでどれくらい差があるのか、よくわからん ○○の出力は得意だね、賢いね、とか 結局恣意的に見てるだけなんじゃねって気がするし 日本語だけで調べても分からねえよな実際 俺は読む書く聞く話すが日本語しかできない日本人だから 英語や中国語ヒンディー語スペイン語とかの他の言語で賢いの?どーなの?って尺度では体感的には分からない 実際は何某かのスコアを使って定量的な性能評価をしてます、なんだろうけど どこまで信用できるんですかね 賢い賢くないってそのスコアで測れるんですかね 数学とか統計もドシロウトなので分からないけれど AIっていう非常に複雑な対象を、何々スコアっていう単純なものさしで本当に測れているのか? 人間だってペーパーテストの点数や知能テストで「賢さ