Microsoft ResearchのAI研究チームは6月20日(現地時間)、わずか13億パラメーターと従来のものよりもサイズが小さいにも関わらず「GPT-3.5(1750億パラメーター)」を上回る成績を収めたTransformerベースの大規模言語モデル「phi-1」を発表した。このモデルは間もなく「Hugging Face」で公開される予定だといいう。 ベンチマークでGPT-3.5を凌駕 「Textbooks Are All You Need」と題された研究論文によると、このモデルは8台のA100(NVIDIAの高性能GPU)でわずか4日間かけて訓練され、インターネット上から取得した60億トークンの「教科書品質」データセットと、GPT-3.5で生成した10億トークンの微調整用「練習問題」データセットが使用された。 サイズが小さいにもかかわらず、phi-1はLLMの性能を測定するためのベ
![マイクロソフト、軽量かつ高性能な大規模言語モデル「phi-1」を発表](https://cdn-ak-scissors.b.st-hatena.com/image/square/aed555e17e7195f1f5fbbb0c28d73f35cafa1751/height=288;version=1;width=512/https%3A%2F%2Fascii.jp%2Fimg%2F2023%2F06%2F23%2F3558667%2Fxl%2F182035b26774c07a.png%3F20200122)