2024年4月17日付の学術誌・PLOS DIGITAL HEALTHで発表した研究で、大規模言語モデル(LLM)が眼科の臨床知識と推論において専門医と同等の能力を持ち始めていることが示された。この研究は、OpenAIのGPT-3.5とGPT-4、GoogleのPaLM 2、MetaのLLaMAを用いて実施され、イギリスでの眼科医資格認定前の試験問題に焦点を当てたものである。これらのLLMは、専門医や訓練中の医師たちと比較され、その結果が分析された。 研究者たちは、LLMの臨床ベンチマークを確立し、その能力を評価するための新たな基準を設け、LLMの出力は、問題の精度と関連性に基づいて専門医によって評価。GPT-4はGPT-3.5と比較して優れた反応を示したという。 GPT-4は特に、訓練中の医師や資格を持つ専門医と比較して高い評価を受けている。試験は、問題の主題や問題タイプ(第一次記憶呼び