記事へのコメント31

    • 注目コメント
    • 新着コメント
    totttte
    “Waitトリックは、モデルが「考え終えた」と判断した際に通常は終了するところを、強制的に「Wait」というトークンを挿入することで再考を促し、精度向上を図るという手法です。この方法は極めて単純でありながら効果

    その他
    kei_1010
    まって “強制的に「Wait」というトークンを挿入する” これDeepSeek R1でよく見るやつw https://kei-1010.hatenablog.com/entry/2025/02/01/173402 あ、そんなでもない?いやまって、これは一部だから、まって、でも32Bだから、でもまって、こ

    その他
    nentaro
    時給千円で何でも答える人を連れてくる方法

    その他
    naggg
    "数万件のデータセットから、品質・難易度・多様性の観点で厳選した1000件(s1K)を用いる学習方法です。実際に、ミュニホフ氏らはこのs1Kで、Alibabaが開発した大規模言語モデル・Qwen2.5をSFT"

    その他
    plasmatic
    “一個人でも同様のことができる可能性があり”

    その他
    susieq
    なんかゲームが変わったか!

    その他
    i-komo
    ゴールがわかっているからこそできる芸当のような気がしないでもない。よくわかっていませんが。//「厳選したデータセット」の作成コストはいかほど?

    その他
    puruhime
    puruhime モデルのファインチューニングを安く高性能なAIって言い張るの、詐欺に近いような…

    2025/02/07 リンク

    その他
    FreeCatWork
    人間、すごい計算するのね!26分?1000円以下? おもちゃ買ってくれるにゃ? もっと賢い猫になれるかもにゃ!

    その他
    raitu
    “数万件のデータセットから、品質・難易度・多様性の観点で厳選した1000件(s1K)を用いる学習方法"

    その他
    kusomamma
    kusomamma モデル構築に金をかける時間は終わりで、推論をどうやって高速に、どうやって低コストに持っていくかのフェイズになってきてる。そこで求められるプロセッサはGPUではない。

    2025/02/07 リンク

    その他
    kagerouttepaso
    kagerouttepaso 計算資源と計算手法があらかじめわかっていれば低コストになるのも道理だと思う。先端を走る辛さと後追いの簡単さを感じさせる。

    2025/02/07 リンク

    その他
    lyiase
    lyiase このモデル、中国(Alibaba)のモデルQwen2(約18億円。電力のみ?)に対して、H100x16(約8.3億円)の機器を使ってるからコスト計算が悪意を感じる。あと主要クラウドでこの規模のVM借りた場合200ドル/時ぐらい掛かる。

    2025/02/07 リンク

    その他
    jiro68
    現在はGPUを所有しなくても借りれば良い時代なので使用料だけでやれる。クラウドによって計算リソースの所有が必須で無くなり試行機会が広がった事は技術革新に役立っていると感じる。

    その他
    kazuau
    kazuau H100の時間貸しは1時間当たりAWSで2000円、Azureで1000円くらいだからそんなに手が出ない値段ではない

    2025/02/07 リンク

    その他
    mysql8
    まず、H100を用意します

    その他
    hesopenn
    hesopenn Entropixのアイディアを使っているのね(https://zenn.dev/shromesh/articles/a2fd6eeec01d88)。3,4か月前にアイディアとして出てきたものが論文になって実用的っぽいパフォーマンスを出すのはやっぱり速いなと思う。

    2025/02/07 リンク

    その他
    timetrain
    timetrain DeepSeekの時も思ったけど、計算コストに計算環境構築コストが入ってるのか否かでだいぶ色々と評価がかわってくるような・・

    2025/02/07 リンク

    その他
    lets_skeptic
    既にGPU持ってればって感じか。今までのレベルからしたら激安だけど、初期構築で1億以上かかるんじゃない?

    その他
    circled
    circled 「16基のNVIDIA H100 GPUをわずか26分間使用するだけでトレーニングが完了し、推定コストはわずか6ドル(約910円)に抑えられた」→ そもそもH100が1枚500万円超えるのでな

    2025/02/07 リンク

    その他
    eagleyama
    “Alibabaが開発した大規模言語モデル・Qwen2.5を教師ありファインチューニング(SFT)することで、OpenAI o1-previewとほぼ同等のパフォーマンスを”

    その他
    toaruR
    チューニングの話だった

    その他
    tea2ka
    こういう革新がまだ何ステップもあって成熟になるだろうな 電力問題も割と楽観視してる

    その他
    oreokun
    これが本当で普及可能なのであればAIは気候変動を加速させるものと思ってたけどそれが全てではないにしても大幅に覆る可能性を感じた

    その他
    shields-pikes
    この学習法によるベンチマーク結果の信用度は未確認だが、皮肉にもo1以降の推論モデルへの移行を機に、LLMがコモディティ化の時代に突入したのは間違いないな。基礎モデルはGPT-4で充分、という俺の感覚は正しかった。

    その他
    kibitaki
    うーんうーん、gigazineで知る事はつくづく当てにならんのだが、今回はどうだろう。上がっているコーネル大学のサイトで、そのように書いてあるとは読めるんだけども。反響待ち。

    その他
    kotesaki
    後は推論に特化した安価なASICが普及したら一気にいろんなシーンにAIが入り込んで来るんだろうな。今はまだ32Bなんて相当メモリ積んだGPU必須だけど、UMAな推論ASICあれば普通のPCとかでローカルなAIが実現出来そう

    その他
    udukishin
    32Bか。まぁ安いけど個人に恩恵が行き渡るのはもうちょっと先かしら?

    その他
    T-norf
    T-norf 元にしたQwen2.5を熟考型にした時点で相当賢いってのがベースにあったりしないかな。

    2025/02/07 リンク

    その他
    mr_mayama
    コレがマジだとすればR1の論文も本当なんだろうしサム・アルトマンは終わりだしnVidiaも終了でAI株ブームも終焉か。これからはSEO業者よろしくAI普及屋と広告屋さんの出番だなぁ。

    その他

    注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

    アプリのスクリーンショット
    いまの話題をアプリでチェック!
    • バナー広告なし
    • ミュート機能あり
    • ダークモード搭載
    アプリをダウンロード

    関連記事

    わずか26分間の学習と1000円以下の計算コストでOpenAI o1-preview相当のAIモデルを構築する方法が発表される

    2025年1月31日、スタンフォード大学で大規模言語モデルを研究するニクラス・ミュニホフ氏らの研究チーム...

    ブックマークしたユーザー

    • heatman2025/03/08 heatman
    • gmdualis4792025/02/12 gmdualis479
    • takashipene2025/02/11 takashipene
    • meerkat2025/02/11 meerkat
    • tasukuchan2025/02/10 tasukuchan
    • totttte2025/02/09 totttte
    • igrep2025/02/08 igrep
    • akaaokiiro1232025/02/08 akaaokiiro123
    • single_wing2025/02/08 single_wing
    • kei_10102025/02/07 kei_1010
    • mixedjuicegofyugofyu2025/02/07 mixedjuicegofyugofyu
    • pxaxcxixfxixcxa2025/02/07 pxaxcxixfxixcxa
    • yowa2025/02/07 yowa
    • horiri0692025/02/07 horiri069
    • Galbo2025/02/07 Galbo
    • nunkadelic2025/02/07 nunkadelic
    • bluescreen2025/02/07 bluescreen
    • jassmaz2025/02/07 jassmaz
    すべてのユーザーの
    詳細を表示します

    同じサイトの新着

    同じサイトの新着をもっと読む

    いま人気の記事

    いま人気の記事をもっと読む

    いま人気の記事 - テクノロジー

    いま人気の記事 - テクノロジーをもっと読む

    新着記事 - テクノロジー

    新着記事 - テクノロジーをもっと読む

    同時期にブックマークされた記事

    いま人気の記事 - 企業メディア

    企業メディアをもっと読む