タグ

2023年6月24日のブックマーク (1件)

  • マイクロソフト、軽量かつ高性能な大規模言語モデル「phi-1」を発表

    Microsoft ResearchのAI研究チームは6月20日(現地時間)、わずか13億パラメーターと従来のものよりもサイズが小さいにも関わらず「GPT-3.5(1750億パラメーター)」を上回る成績を収めたTransformerベースの大規模言語モデル「phi-1」を発表した。このモデルは間もなく「Hugging Face」で公開される予定だといいう。 ベンチマークでGPT-3.5を凌駕 「Textbooks Are All You Need」と題された研究論文によると、このモデルは8台のA100(NVIDIAの高性能GPU)でわずか4日間かけて訓練され、インターネット上から取得した60億トークンの「教科書品質」データセットと、GPT-3.5で生成した10億トークンの微調整用「練習問題」データセットが使用された。 サイズが小さいにもかかわらず、phi-1はLLMの性能を測定するためのベ

    マイクロソフト、軽量かつ高性能な大規模言語モデル「phi-1」を発表
    yottsusan
    yottsusan 2023/06/24
    “GPT-3.5で生成した微調整用「練習問題」データセットを使用する” これは、、、親は超えられないということ?データ量少ないと言ってるが、カンニングをしているだけな気がしてしまう。