独自ベンチマーク「ELYZA Tasks 100」を開発 モデルの性能評価では、2023年に独自のベンチマークテスト「ELYZA Tasks 100」を作成・公開している。これは、生成AIのテキスト出力を評価する指標で、100個の質問に答えた結果を人間が評価するものだ。 「当時は文章から単語を抜き出すようなベンチマークしかなく、チャットボットに期待する性能とは違った。そこで物語作成や歴史、算数など幅広い100のタスクからなるベンチマークを開発した。問題と出力結果、スコアもすべて公開し、公平性と透明性を重視している」 「RAGはそんなに簡単じゃない」 2024年の生成AI活用において、企業が持つ固有の知識をLLMに学習させる「RAG」(Retrieval-Augmented Generation、検索拡張生成)という手法に注目が集まっている。RAGは、関連する情報をLLMに検索・抽出させ、そ