タグ

2023年6月24日のブックマーク (1件)

  • マイクロソフト、軽量かつ高性能な大規模言語モデル「phi-1」を発表

    Microsoft ResearchのAI研究チームは6月20日(現地時間)、わずか13億パラメーターと従来のものよりもサイズが小さいにも関わらず「GPT-3.5(1750億パラメーター)」を上回る成績を収めたTransformerベースの大規模言語モデル「phi-1」を発表した。このモデルは間もなく「Hugging Face」で公開される予定だといいう。 ベンチマークでGPT-3.5を凌駕 「Textbooks Are All You Need」と題された研究論文によると、このモデルは8台のA100(NVIDIAの高性能GPU)でわずか4日間かけて訓練され、インターネット上から取得した60億トークンの「教科書品質」データセットと、GPT-3.5で生成した10億トークンの微調整用「練習問題」データセットが使用された。 サイズが小さいにもかかわらず、phi-1はLLMの性能を測定するためのベ

    マイクロソフト、軽量かつ高性能な大規模言語モデル「phi-1」を発表
    n_shuyo
    n_shuyo 2023/06/24
    phi-1 を報じる記事のほぼ全てが、論文の abstract の1行目に書いてある a new large language model for code の "for code" を無視しているのはなぜだろうか。