LLMを用いたLLMの自動評価について〜可能性と注意点〜 - NTT Communications Engineers' Blog

テクノロジーカテゴリーの変更を依頼記事元:

engineers.ntt.com

125users がブックマークコメント

記事へのコメント6件

注目コメント
新着コメント

qinmu 《LLM に LLM の評価そのものを行わせるという新たなアプローチ（LLM-as-a-judge）》

技術

2023/09/25 リンク

napsucks LLM A「こいつは無能です」LLM B「いえ、こいつの方が無能ですポンコツです」「なんだと！」「なにを！」→終末戦争へ

2023/09/25 リンク

qinmu 《LLM に LLM の評価そのものを行わせるという新たなアプローチ（LLM-as-a-judge）》

技術

2023/09/25 リンク

stealthinu 「LLM-as-a-judge」GPT4などの強力なLLMにLLMの性能を評価させる仕組み。Rakudaベンチなどがこれにあたる。評価問題どうしたらいいんだろう？と思ってたらまさに今ホットな分野なんだな。

2023/09/25 リンク

misshiki “LLM に LLM の評価そのものを行わせるという新たなアプローチ（LLM-as-a-judge）についてご紹介します。 ”

自然言語処理

2023/09/25 リンク

Shinwiki もう英語3文字つけるのやめれ。

2023/09/25 リンク

t-wada 強力なLLM（例: GPT-4）にLLMの評価そのものをやらせるLLM-as-a-judge の解説と実践 "実際に運用する上では、単に出力の優劣を決めるだけではなく、さまざまな観点から出力を評価できるようなプロンプトを設計する必要がある"

2023/09/25 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

LLMを用いたLLMの自動評価について〜可能性と注意点〜 - NTT Communications Engineers' Blog

こんにちは、イノベーションセンターの杉本（GitHub：kaisugi）です。普段はノーコード AI開発ツール Nod... こんにちは、イノベーションセンターの杉本（GitHub：kaisugi）です。普段はノーコード AI開発ツール Node-AI の開発に取り組む傍ら、兼務1で大規模言語モデル（LLM:Large Language Model）について調査を行なっています。特に、日本語を中心に学習された LLM への関心があり、awesome-japanese-llm という日本語 LLM をまとめた Web サイトのメンテナンスにも取り組んでいます。今回は、LLM に LLM の評価そのものを行わせるという新たなアプローチ（LLM-as-a-judge）についてご紹介します。 ChatGPT の登場以降、国内外で LLM の開発競争が進行しており、モデルの重みが公開されたオープンなモデルも続々と現れています。そのような中で、新しいモデルの構築だけでなく、どのモデルが優れているかを比較検討することが今後ます