[B! 生成AI][LLM] mohnoのブックマーク

mohno id:mohno

生成AIとLLMに関するmohnoのブックマーク (6)

DeepSeekはなぜこんな大騒ぎになっていて一体何がそんなにスゴいのか
2025年1月20日、DeepSeekが推論モデルの「DeepSeek-R1-Zero」と「DeepSeek-R1」をMITライセンスの下でオープンソースとして公開しました。「R1」のトレーニングコストはOpenAIの推論モデル「o1」の約3％程度だとも伝えられたために、AIの開発に対する業界の見方を大きく変えたこのモデルについて、Apple、Microsoft、Automatticでの勤務経験があるアナリストのベン・トンプソン氏が解説しました。 DeepSeek FAQ – Stratechery by Ben Thompson https://stratechery.com/2025/deepseek-faq/ 17 Thoughts About the Big DeepSeek Selloff - Bloomberg https://www.bloomberg.com/news/ne
mohno 2025/01/29
「OpenAIなどがトレーニングに数十億ドル(数千億円)を費やしていると言われる中、このモデルは600万ドル(約9億3000万円)未満のコスト」「既存の企業に全賭けしたベンチャーキャピタルにとって絶滅レベルの出来事だ」

GIGAZINE

DeepSeek

人工知能

機械学習

生成AI

LLM

中国

OpenAI
リンク
DeepSeek-R1の論文読んだ？【勉強になるよ】
本記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。本論文で使われている技術に関しては、ある程度の知識を持っているので、大きくは外していないとは思いますが、私の主観も入っている部分もありますので、ご了承ください。また、DeepSeek-R1の論文が公開される前に、小型モデルに対して同様の実験（強化学習）をしていたグループがあるようです。そちらのレポートは下記になります。意図せず、DeepSeek-R1-Zeroの再現実験のようなレポートになっていますが、レポートの著者はDeepSeek-R1論文の公開前から実験していると主張しています。こちらも非常に興味深かったため紹介です。本論文の興味深いところ本論文は、大きく分けて3つの構成でできています強化学習による思考能力の強化 LLM（DeepSeek-V3-Base）に対
mohno 2025/01/27
長いのでちゃんと読んでない（読んでも理解できそうにない）「モデル構造を変えずに、「DeepSeek-V3-Base」に対する学習方法を工夫しただけで、OpenAI o1に匹敵する性能のLLMを開発している」

asap

DeepSeek

人工知能

機械学習

生成AI

LLM

中国

OpenAI
リンク
中国発の高性能AI「DeepSeek」が示す衝撃 —— 制約が生んだ驚異的な効率性 | XenoSpectrum
世界のAI開発競争に、激震が訪れている。中国のAIスタートアップ「DeepSeek」が2024年12月、そして今月に相次いで発表した言語モデルが、OpenAIやAnthropicといった米国の巨人たちを震撼させているのだ。驚くべきことに、この革新は米国による半導体輸出規制という制約の中で生まれた。驚異的な開発効率で実現した世界最高峰の性能 DeepSeekが1月に発表したDeepSeek-R1の登場は、AIの開発手法に関する既存の常識を根本から覆すものとなった。同モデルは、複雑な推論を必要とするタスクにおいて「Chain-of-Thought（CoT：思考の連鎖）」と呼ばれる手法を採用。これにより、自身の論理を段階的に検証しながら、より正確な解答を導き出すことを可能にしている。特筆すべきは、このモデルがOpenAIのo1と同等以上の性能を示したベンチマークテストの結果だ。問題解決能力、
mohno 2025/01/27
「半導体輸出規制という制約の中で生まれた」「DeepSeekは、わずか558万ドル（約8億円）という予算と2ヶ月という短期間」「ChatGPTが学習時に必要とした約1万基のNVIDIA GPUに対し、DeepSeekは約2,000基で同等の性能を達成」

XenoSpectrum

DeepSeek

人工知能

機械学習

生成AI

LLM

中国

OpenAI

GPU
リンク
ELYZA | 未踏の領域で、あたりまえを創る
ELYZAはDeep Learningを軸としたAIカンパニーです。 2020年に独自の大規模言語モデル（LLM）の開発に成功して以来、主に大手企業に対してLLM活用の支援を行っています。近年の技術革新により、LLMへの期待は大きく膨らんできているものの、技術・社会実装の両面において、多くの未解決問題が残っています。 ELYZAは、LLMの真の実用化に向き合い、未踏の問題の解決を目指します。
mohno 2025/01/18
#nhk #NHKスペシャル社員の半分が東大生というスタートアップ企業は、この会社か。ChatGPTで目覚めたのかと思ったら、起業が2018年で、独自のLLMが2020年とか。

イライザ

人工知能

機械学習

LLM

生成AI

東京大学

スタートアップ

技術

ビジネス

松尾豊
リンク
驚異の1ビットLLMを試す。果たして本当に学習できるのか?｜shi3z
昨日話題になった「Bit Net」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 Bit Netというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、Bit NetによるTransf ormerの野良実装
mohno 2024/02/29
「いくつか実装を試したが、一番手っ取り早く動かせたのはこれだった」←このフットワークの軽さは凄いと思う。「論文著者はlog2(3)で1.58ビットという主張をしている」←乗算を使わないことが重要なのか。

清水亮

Microsoft

BitNet

研究

人工知能

生成AI

技術

1ビット量子化

LLM
リンク
1ビットLLMの衝撃! 70Bで8.9倍高速　全ての推論を加算のみで!GPU不要になる可能性も
1ビットLLMの衝撃! 70Bで8.9倍高速　全ての推論を加算のみで!GPU不要になる可能性も 2024.02.28 Updated by Ryo Shimizu on February 28, 2024, 16:46 pm JST 2月は中国では春節というお正月があり、春節にはみんな休む。それもあってか、12月から1月にかけて怒涛の論文発表が行われて毎日「デイリーAIニュース」を配信している筆者は忙殺されていた。春節中にはOpenAIがSoraを、GoogleがGemini1.5を発表したのは、その合間を縫ってのことだった。もはやAI最前線の戦いは研究が行われる場所の文化や風土に影響を受けるところまで来ている。そして春節もあけた今週、さっそくAlibabaがとんでもないトーキングヘッドモデルを引っ提げて登場したかと思えば、Microsoftの中国チームがとてつもないLLMをリリース
mohno 2024/02/28
「1ビット量子化」「BitNetは8.9倍のスループットを誇ると」「BitNetはLlamaよりも3倍高速でしかも高精度」「「積和演算に最適化されたGPUではなく、加算処理のみに特化した新しいハードウェアの出現」までもが予言されて」

WirelessWireNews

Microsoft

BitNet

研究

中国

人工知能

生成AI

技術

1ビット量子化

LLM
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx