■大規模言語モデルの対話型AIであるChatGPT-4に米国外科医資格試験問題を解かせることにより,パフォーマンス,エラー,一貫性などを評価した研究が,プレプリントではあるがmedRxivに投稿されていたので紹介する.本研究では,外科的知識評価というよりも,医学/医療分野でChatGPTを利用する上において,エラーや一貫性欠如などの潜在的リスクを示している.まずはAbstractの和訳を提示し,その後解説をつけた.大規模言語モデルの能力評価:米国外科医資格試験問題集に対するGPT4のパフォーマンス Beaulieu-Jones BR, Shah S, Berrigan MT, et al. Evaluating Capabilities of Large Language Models: Performance of GPT4 on American Board of Surgery Qu
![【AI/論文】医学/医療におけるChatGPTがはらむエラーと一貫性欠如のリスク | EARLの医学ノート](https://cdn-ak-scissors.b.st-hatena.com/image/square/7d2bb083ccd75ba8dc6746d80a14bf2bd3187db0/height=288;version=1;width=512/https%3A%2F%2Fpds.exblog.jp%2Flogo%2F1%2F201110%2F17%2F23%2Fe025512320111017204444.jpg)