エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
[論文] G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
[論文] G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment
Summary NLG出力をLLMを用いて評価するフレームワークを提案した 提案手法では特にCoT(Chain of Thought... Summary NLG出力をLLMを用いて評価するフレームワークを提案した 提案手法では特にCoT(Chain of Thought)を用いたフレームワーク、スコア算出方法を工夫している 要約タスク・対話生成タスクにおける、人手の評価との相関において、提案手法では既存手法のパフォーマンスを大きく上回った 背景 伝統的な評価指標(e.g. BLEU, ROUGE)だと次の問題がある 人間による評価との相関が比較的弱い 人間が正解を用意する必要があり、コストが高い 最近の研究では、NLG評価器としてLLMを直接使用することが提案されている。しかし LLMをNLG評価器として使用することの妥当性と信頼性は、体系的に調査されていない 一部の評価タスクでは、LLMベースの評価器は、中規模のニューラル評価器よりも人間の対応度が低いことが示されている。したがって、LLMをNLG評価に用いるための、より効