タグ

ブックマーク / note.com/ippei_suzuki_us (1)

  • OpenAIのGPT-4のアーキテクチャへの仮説:Mixture Of Experts(MoE)による拡張性の高いLLM|鈴木いっぺい (Ippei Suzuki)

    OpenAI社のGPT-4は、従来のGPT-3, GPT-2.5と比較して巨大な言語モデル持ち、パラメタ数でいうと1,750億〜2,800億個、とされています。これはデータ量で言うと45GBに及びます(従来のGPT-3はその1/3近くの17GB)。データ量が多くなった分、精度や正確性は高くなったと評価されてますが、ハルシネーションによる間違った回答の比率が少なくなったかと言うと そうでも無い、と言う意見も多いし、人間の思考の様な推論(reasoning)がまだ十分にできない、と言うことも根的な課題です。 AIシステムのパラメタが巨大化する最大の課題は、それをトレーニングするためのコストが著しく高くなってしまう、という事。この辺のスタディはかなりされていると思いますが、この課題を解決する方法の一つとして、MoE (Mixture of Experts) アーキテクチャ、と呼ばれるニューラル

    OpenAIのGPT-4のアーキテクチャへの仮説:Mixture Of Experts(MoE)による拡張性の高いLLM|鈴木いっぺい (Ippei Suzuki)
    misshiki
    misshiki 2024/05/21
    “GPT-4はほとんど内部構造に関する技術情報が開示されていませんが、このMoEを採用している、とされています。MoEアーキテクチャは、特定の「エキスパート」が特定のタスクや情報タイプに特化することを可能に。”
  • 1