タグ

生成AIとLLMに関するmohnoのブックマーク (6)

  • DeepSeekはなぜこんな大騒ぎになっていて一体何がそんなにスゴいのか

    2025年1月20日、DeepSeekが推論モデルの「DeepSeek-R1-Zero」と「DeepSeek-R1」をMITライセンスの下でオープンソースとして公開しました。「R1」のトレーニングコストはOpenAIの推論モデル「o1」の約3%程度だとも伝えられたために、AIの開発に対する業界の見方を大きく変えたこのモデルについて、AppleMicrosoft、Automatticでの勤務経験があるアナリストのベン・トンプソン氏が解説しました。 DeepSeek FAQ – Stratechery by Ben Thompson https://stratechery.com/2025/deepseek-faq/ 17 Thoughts About the Big DeepSeek Selloff - Bloomberg https://www.bloomberg.com/news/ne

    DeepSeekはなぜこんな大騒ぎになっていて一体何がそんなにスゴいのか
    mohno
    mohno 2025/01/29
    「OpenAIなどがトレーニングに数十億ドル(数千億円)を費やしていると言われる中、このモデルは600万ドル(約9億3000万円)未満のコスト」「既存の企業に全賭けしたベンチャーキャピタルにとって絶滅レベルの出来事だ」
  • DeepSeek-R1の論文読んだ?【勉強になるよ】

    記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。 論文で使われている技術に関しては、ある程度の知識を持っているので、大きくは外していないとは思いますが、私の主観も入っている部分もありますので、ご了承ください。 また、DeepSeek-R1の論文が公開される前に、小型モデルに対して同様の実験(強化学習)をしていたグループがあるようです。 そちらのレポートは下記になります。 意図せず、DeepSeek-R1-Zeroの再現実験のようなレポートになっていますが、レポートの著者はDeepSeek-R1論文の公開前から実験していると主張しています。 こちらも非常に興味深かったため紹介です。 論文の興味深いところ 論文は、大きく分けて3つの構成でできています 強化学習による思考能力の強化 LLM(DeepSeek-V3-Base)に対

    DeepSeek-R1の論文読んだ?【勉強になるよ】
    mohno
    mohno 2025/01/27
    長いのでちゃんと読んでない(読んでも理解できそうにない)「モデル構造を変えずに、「DeepSeek-V3-Base」に対する学習方法を工夫しただけで、OpenAI o1に匹敵する性能のLLMを開発している」
  • 中国発の高性能AI「DeepSeek」が示す衝撃 —— 制約が生んだ驚異的な効率性 | XenoSpectrum

    世界のAI開発競争に、激震が訪れている。中国AIスタートアップ「DeepSeek」が2024年12月、そして今月に相次いで発表した言語モデルが、OpenAIやAnthropicといった米国の巨人たちを震撼させているのだ。驚くべきことに、この革新は米国による半導体輸出規制という制約の中で生まれた。 驚異的な開発効率で実現した世界最高峰の性能 DeepSeekが1月に発表したDeepSeek-R1の登場は、AIの開発手法に関する既存の常識を根から覆すものとなった。同モデルは、複雑な推論を必要とするタスクにおいて「Chain-of-Thought(CoT:思考の連鎖)」と呼ばれる手法を採用。これにより、自身の論理を段階的に検証しながら、より正確な解答を導き出すことを可能にしている。 特筆すべきは、このモデルがOpenAIのo1と同等以上の性能を示したベンチマークテストの結果だ。問題解決能力、

    中国発の高性能AI「DeepSeek」が示す衝撃 —— 制約が生んだ驚異的な効率性 | XenoSpectrum
    mohno
    mohno 2025/01/27
    「半導体輸出規制という制約の中で生まれた」「DeepSeekは、わずか558万ドル(約8億円)という予算と2ヶ月という短期間」「ChatGPTが学習時に必要とした約1万基のNVIDIA GPUに対し、DeepSeekは約2,000基で同等の性能を達成」
  • ELYZA | 未踏の領域で、あたりまえを創る

    ELYZAはDeep Learningを軸としたAIカンパニーです。 2020年に独自の大規模言語モデル(LLM)の開発に成功して以来、 主に大手企業に対してLLM活用の支援を行っています。 近年の技術革新により、LLMへの期待は大きく膨らんできているものの、 技術・社会実装の両面において、多くの未解決問題が残っています。 ELYZAは、LLMの真の実用化に向き合い、未踏の問題の解決を目指します。

    ELYZA | 未踏の領域で、あたりまえを創る
    mohno
    mohno 2025/01/18
    #nhk #NHKスペシャル 社員の半分が東大生というスタートアップ企業は、この会社か。ChatGPTで目覚めたのかと思ったら、起業が2018年で、独自のLLMが2020年とか。
  • 驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z

    昨日話題になった「BitNet」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 BitNetというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。 この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。 オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。 論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、BitNetによるTransformerの野良実装

    驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z
    mohno
    mohno 2024/02/29
    「いくつか実装を試したが、一番手っ取り早く動かせたのはこれだった」←このフットワークの軽さは凄いと思う。「論文著者はlog2(3)で1.58ビットという主張をしている」←乗算を使わないことが重要なのか。
  • 1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も

    1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も 2024.02.28 Updated by Ryo Shimizu on February 28, 2024, 16:46 pm JST 2月は中国では春節というお正月があり、春節にはみんな休む。 それもあってか、12月から1月にかけて怒涛の論文発表が行われて毎日「デイリーAIニュース」を配信している筆者は忙殺されていた。 春節中にはOpenAIがSoraを、GoogleがGemini1.5を発表したのは、その合間を縫ってのことだった。もはやAI最前線の戦いは研究が行われる場所の文化や風土に影響を受けるところまで来ている。 そして春節もあけた今週、さっそくAlibabaがとんでもないトーキングヘッドモデルを引っ提げて登場したかと思えば、Microsoft中国チームがとてつもないLLMをリリース

    1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も
    mohno
    mohno 2024/02/28
    「1ビット量子化」「BitNetは8.9倍のスループットを誇ると」「BitNetはLlamaよりも3倍高速でしかも高精度」「「積和演算に最適化されたGPUではなく、加算処理のみに特化した新しいハードウェアの出現」までもが予言されて」
  • 1