並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 5 件 / 5件

新着順 人気順

GPUの検索結果1 - 5 件 / 5件

  • CPUとGPUのマルチスレッディングの違いについて - arutema47's blog

    "Locality is efficiency, Efficiency is power, Power is performance, Performance is King", Bill Dally マルチスレッディングとは? CPUとGPUのマルチスレッディングの違いをブログにまとめていたけど例によって誰も興味なさそう— arutema47 (@arutema47) 2021年8月16日 つぶやいたら読みたい方が多そうだったので完成させました。 マルチスレッディングとはメモリ遅延を隠蔽しスループットを上げるハードウェアのテクニックです。 ただCPUとGPUで使われ方がかなり異なるため、その違いについて考えてみる記事です。 (SIMDについて並列プログラミングの観点から触れるべきでしたが、時間無いマルチスレッディングに注目するため初版では省きました。) 本記事について 本記事はCPUとG

      CPUとGPUのマルチスレッディングの違いについて - arutema47's blog
    • 1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も

      1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も 2024.02.28 Updated by Ryo Shimizu on February 28, 2024, 16:46 pm JST 2月は中国では春節というお正月があり、春節にはみんな休む。 それもあってか、12月から1月にかけて怒涛の論文発表が行われて毎日「デイリーAIニュース」を配信している筆者は忙殺されていた。 春節中にはOpenAIがSoraを、GoogleがGemini1.5を発表したのは、その合間を縫ってのことだった。もはやAI最前線の戦いは研究が行われる場所の文化や風土に影響を受けるところまで来ている。 そして春節もあけた今週、さっそくAlibabaがとんでもないトーキングヘッドモデルを引っ提げて登場したかと思えば、Microsoftの中国チームがとてつもないLLMをリリース

        1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も
      • なぜもっとたくさんのコアを搭載したCPUを作らないのでしょうか?2000コアのGPUなんかそこら辺にありますが、なぜCPUでは同じようにできないのでしょうか?

        回答 (9件中の1件目) 質問に間違いがありますね。 2000個のコアが入ったGPUなんかありません。企業の広報は違った(間違った)方法で計算して数字を大きく見せています。 Radion 6900XTの本当のコア数(DCU)は、5120個ではなく、40個です。こちらでダイの写真を確認でき、4*5のコアが2グループあります。 各コア(DCU)には32レーンのSIMDユニットが4つあり、各コアには並列に動作する32 bitの浮動小数点演算ユニット(FMA)が128個あり、チップ全体としては32 bitのFMAが5120個同時に動きます。 Zen2とZen3のCPUコアはどちらも256...

          なぜもっとたくさんのコアを搭載したCPUを作らないのでしょうか?2000コアのGPUなんかそこら辺にありますが、なぜCPUでは同じようにできないのでしょうか?
        • 【特集】 約30年でGPUはどのぐらい速くなったの?歴史を振り返りつつぜ~んぶ計算してみた

            【特集】 約30年でGPUはどのぐらい速くなったの?歴史を振り返りつつぜ~んぶ計算してみた
          • ChatGPTをオープンソースで再現、わずか1.6GBのGPUメモリですぐに使用でき7.73倍高速なトレーニングが可能

            OpenAIの対話型AI「ChatGPT」は史上最も急速な成長で「月間1億ユーザー」をわずか2カ月で達成するなど、大いに注目を集めています。それに伴い、GoogleがChatGPTのライバルとなる会話型AI「Bard」を発表したり、中国企業が続々とChatGPT風AIを開発していると報道されている一方で、OpenAIはChatGPTのコードを公開していないためChatGPTを効果的に複製することは難しくなっています。AIのディープラーニングトレーニングを最適化するオープンソースプラットフォームのColossal-AIが、ChatGPTトレーニングプロセスをわずか1.6ギガバイトのGPUメモリで7.73倍高速なトレーニングに再現したと告知し、オープンソースで公開しています。 Open-source replication of ChatGPT implementation process!

              ChatGPTをオープンソースで再現、わずか1.6GBのGPUメモリですぐに使用でき7.73倍高速なトレーニングが可能
            1