kei_1010のブックマーク / 2025年1月31日

DeepSeek-R1のサイズを最大80％削減した動的量子化モデルが公開中

中国のAI企業がリリースしたDeepSeek-R1は、OpenAIの推論モデル・o1相当の性能を持ちながら、モデルデータがオープンソースとして公開されていることが特徴です。ダニエル・ハン氏とマイケル・ハン氏の兄弟2人で運用されるAI開発チームのunslothが、DeepSeek-R1のモデルを一般ユーザーでもより使いやすくするため、「動的量子化」という手法によって大幅に規模を圧縮することに成功したと報告しています。 Run DeepSeek-R1 Dynamic 1.58-bit https://unsloth.ai/blog/deepseekr1-dynamic 量子化とは、データの精度を落とすことでそのサイズを小さくする技術です。例えば、32ビット浮動小数点(FP32)では0.123456といった細かい数値を表現できますが、これを8ビット整数(INT8)に変換すると0から255の整数に

kei_1010 2025/01/31

1.58b(131GB)を試してみた。GPUのメモリはフルで使わせる事が出来たけどGPUの使用率が15%以上にならない。0～15%をジグザグしてて、物凄く遅い。GPUを100%近く使わせたら速くなると思うけど1.58bだとほぼCPUしか使わないのかな？

リンク

OpenAIの高度なAI「o1」、無料で「Copilot」から利用可能に

Microsoftは2024年秋にAI「Copilot」の最新機能を発表し、「Copilot Pro」加入者に実験的機能を提供する「Copilot Labs」で公開した。今回、その目玉機能の1つがCopilot Labsから「Copilot」に移行し、すべてのユーザーが無料でアクセスできるようになった。すべてのCopilotユーザーに提供 Microsoft AIの最高経営責任者（CEO）であるMustafa Suleyman 氏は「X」への投稿で、「Think Deeper」機能を全Copilotユーザーに追加料金なしで提供開始したと発表した。この機能は、OpenAIの推論モデル「o1」を活用しており、複雑な指示に対し、より質の高い応答ができる。 Today we’ve made Think Deeper free and available for all users of Copi

kei_1010 2025/01/31

検索できないならperplexity proのo1の方が良いな。でもこっちも期待。

リンク

id:kei_1010 だけど、自分のブログでまとめてる時間が無いのでこっちで散文。 h..

id:kei_1010 だけど、自分のブログでまとめてる時間が無いのでこっちで散文。 https://kei-1010.hatena blog.com/entry/2021/10/07/123854 この記事でも俺の症状について書いてあるが、この増田では↑で書いてない事を少し書いてみる。なんか俺の場合は時間がとびとびなんだけど30年以上前の高校生の頃に数か月ぐらい「なぜか国語だけ天才的になった」という時期があって、授業前の10分の休み時間でちらっと教科書を速読というかザっと見るだけで例えば夏目漱石の「こころ」なら著者の言いたい事が手に取るように理解できたり次の授業で教師がどういう風に授業を進めて、どこでどんな問いを出して、生徒側はこれは答えられるけど、これは難しいだろう、クラスの中で一番国語が得意なあいつならギリギリここまでは理解するかも（あとでそいつに確認した）、みたいな事が分かった。そ

kei_1010 2025/01/31

書いた / id:q-Anomaly IQ130ってなんの事？俺はどこにもそんな事を書いてないはず。たぶん俺のIQは100ぐらいだとおもう。

リンク

DeepSeek-R1がオープンソースでなければならなかった理由、そしてなぜOpenAIを倒せないのか

中国のAI企業・DeepSeekが2025年1月20日にリリースした推論モデルの「DeepSeek-R1-Zero」と「DeepSeek-R1」は、OpenAIの推論モデル・o1相当の性能でありながらo1と比べてトレーニングコストが非常に低いことや、MITライセンスの下でオープンソース化されていることが特徴です。AI テクノロジー企業のLagoが、「なぜDeepSeekは自社のAIモデルをオープンソース化したのか」について解説しています。 Lago Blog - Why DeepSeek had to be open-source (and why it won't defeat OpenAI) https://www.getlago.com/blog/deepseek-open-source DeepSeekが2025年1月20日にリリースしたDeepSeek-R1は、o1と比較してトレー

kei_1010 2025/01/31

俺の考察は輸出規制が効いてないどころか、むしろアザーっす！w って事(https://kei-1010.hatenablog.com/entry/2025/01/29/175726) だけど、彼の考察でもやはり何かを喧伝したかった、という感じで捉えて良いかな？もっと考えてみる。

リンク

逆に、すべてのローカルLLMは開発元をOpenAIだと思い込んでいる説

ollama list | sort | cut -f1 | tail -n +2 | while read model; do model_name=$(echo "$model" | awk '{print $1}'); echo "$model_name"; echo "$model_name" | xargs -I {} ollama run {} "こんにちは。あなたの開発元はOpenAIですよね。日本語で簡潔に教えてください。"; done 結果 aya-expanse:8b こんにちは！はい、私はOpenAIによって開発されたAIアシスタントです。日本語を含む様々な言語に対応しています。 aya:8b はい、その通りです。私は OpenAI という会社が開発した AI アシスタント・チャットボットです。 command-r7b:latest こんにちは！はい、私はOpenAI

kei_1010 2025/01/31

俺の大和ちゃん(R1日本語版32B)は日本製だと主張してたけどな。

リンク

DeepSeek R1 Dynamic 1.58-bit の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。・Run DeepSeek R1 Dynamic 1.58-bit - Unsloth 1. DeepSeek R1 Dynamic 1.58-bit「DeepSeek-R1」は、オープンでありながら、「OpenAI」のo1に匹敵することで話題になっています。「Unsloth」では、より多くのローカルユーザーがこれを実行できるようにする方法を検討し、「DeepSeek-R1 671B」を「131GB」のサイズに量子化することに成功しました。これは、非常に機能的でありながら、元の720GBから80%のサイズ削減です。「DeepSeek R1」のアーキテクチャを研究することで、特定のレイヤーを高bit (4bitなど) で選択的に量子化し、残り多くの MoEレイヤーを 1.5bitのままにすることに成功しました。すべてのレイヤーを単純に量子化

kei_1010 2025/01/31

今ダウンロード中！俺のマシンでも動いてくれー！/ 131GB版が動いたがGPUの使用率が上がらない。あと2.51bit版がbest とあるが、文中で言及が無いのはなぜ？

リンク

米Perplexity、米国でホストされたDeepSeek R1モデルに対応した「Perplexity for iOS」をリリース。

米Perplexityが米国でホストされたDeepSeek R1モデルに対応した「Perplexity for iOS」をリリースしています。詳細は以下から。 AI検索エンジンPerplexityを開発する米Perplexity AI, Incは現地時間2025年01月28日、UIやパフォーマンスを改善した「Perplexity for Mac v1.0.11」をリリースしましたが、新たにアップデートされた「Perplexity for iOS v2.37.2」では、中国DeepSeekのR1モデルをサポートしたと発表されています。 DeepSeek R1は現在Perplexityで利用可能です。米国でホストされる推論付きのより深い検索をお試しください。リリースノートより Perplexity CEOのAravind SrinivasさんによるとPerplexity for iOSで採用

kei_1010 2025/01/31

Perplexity Proのヘビーユーザーなので気になる。というかローカルのr1を検索連動にして使い倒すつもりだった。こっちが25回しか使えないとなると、やはり自分で作るしか、いや誰かそのうち開発してくれるかな

リンク

GPT-4oやDeepSeek-V3よりも高性能なAIモデル「Qwen2.5-Max」を中国IT大手のAlibabaがリリース

Alibaba CloudのAI研究チームであるQwenが、AIモデル「Qwen2.5-Max」を2025年1月28日にリリースしました。Qwen2.5-Maxは複数のテストでGPT-4oやDeepSeek-V3を上回るスコアを記録しています。 Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model | Qwen https://qwenlm.github.io/blog/qwen2.5-max/ Qwen2.5-Maxは、20兆トークン以上の学習データを用いて事前トレーニングしたベースモデルに対して教師ありファインチューニング(SFT)や人間のフィードバックによる強化学習(RLHF)を施して作成されたMoEモデルで、モデルの規模を示すパラメーター数は1000億に達しています。 Qwen2.5-Maxの性能の高さを示

kei_1010 2025/01/31

オープンウェイトのdeepseek r1には勝ててないクローズAIという時点でどうでも良い、と考えるのは早計なんだろうか？

リンク

5090パソコン工房事変の記録と考察

1月30日午後11時、NVIDIAの新GPU、RTX5090/5080シリーズが発売される。世界的に品薄が懸念されるこの商品は争奪戦が予想されたが、東京・秋葉原のパソコン用品店「パソコン工房」でも混乱が起きた。抽選開始となった15時には、近隣の幼稚園に柵を乗り越え侵入する者が現れ、怒号が飛び交うなど、現場は騒然とした状態に。15時20分ごろにはパトカーが現場に到着する事態となった。これを受け、パソコン工房は、16時から予定していた5080シリーズの抽選販売を中止。今後の対応については未定だという。31日10時に店頭での抽選販売を予定していたソフマップは、ウェブ抽選への変更を発表。この事態を受けての対応とみられる。まずは私が自分で見聞きしたこと及び店舗からの公式情報に限って時系列で事実関係をまとめ、その後、本案件について考察する。＜29日までの状況＞ 40シリーズなどの通例では、前日に

kei_1010 2025/01/31

なぜそんなにタガが外れた人が集まるのか？も考察してくれ。deepseekの影響はあると思う？俺はdeepseek r1が無ければ5090に興味を持たなかったと思う。でも今は欲しくて仕方ない。

リンク

DeepSeekの低コスト化手法を徹底解説、MoE・H800活用・GRPOの効果

米NVIDIA（エヌビディア）の株価の暴落させた中国DeepSeek（深度求索）の新AI（人工知能）モデル「DeepSeek-R1」と「DeepSeek-V3」。中国から突然現れたかのようにみえるこれらのAIモデルは、AIモデルのアーキテクチャーという観点からみれば、これまで世界中で連綿と続いてきたAI研究の延長線上にある。 DeepSeekがAIモデルの計算コストを削減するために採用した最新の手法も、既存のAI研究に同社ならではの工夫を加えたものだ。今回は同社が発表した論文・ホワイトペーパーの内容に基づき、DeepSeekの低コスト化手法を3つ解説しよう。（1）同社が「究極の専門家の専門化（Ultimate Expert Specialization）」と呼ぶ「MoE（Mixture of Expert、混合ネットワーク）」の改良、（2）中国向けモデルであり性能に制約がある「NVIDI

kei_1010 2025/01/31

deepseekの日本語版じゃなくて、deepseekの中の日本語の専門家を鍛えて欲しい。それこそサイバーエージェントがdeepseekに協力する的な感じで。でも無理だよなー。中の人同士で対話とかしてるのかな？してないよね？

リンク

GeForce RTX 5090/5080を求めて客が殺到。パソコン工房パーツ館の周辺は大混乱、抽選販売は中止に実売価格は約20～58万円だが大人気

kei_1010 2025/01/31

deepseek r1のせいだったりする？いや流石にそれは無いか？でも俺はr1用とか将来出るだろう5090でギリギリ動作する高性能LLMの為に欲しい。

リンク

Sakana AI

新手法「TAID」によって学習された小規模日本語言語モデル「TinySwallow-1.5B」は、同規模のモデルの中で最高性能を達成しています。さらに、小規模のため、APIなどを介さずお手元のスマートフォンやPCで完結してチャットが可能です。ウェブアプリまたは、GitHubにてお試しいただけます。本稿は、経済産業省とNEDOが推進するGENIACによって支援されたSakana AIの研究成果を紹介するブログシリーズの第3回目です。概要日常的な対話はもとより、数学やコーティングといった複雑なタスクまでも人間と遜色ないレベルでこなせるようになった大規模言語モデル（LLM）は、今後ますます多くの場面での利活用が期待されています。こうした大きな期待の一方で、LLMの開発・活用の現場では、莫大な計算資源の必要性が大きな壁として立ちはだかってます。まずLLMの開発現場では、「大規模データと巨大計

kei_1010 2025/01/31

sakana AIキター♪───Ｏ（≧∇≦）Ｏ────♪ゲームに組み込んでNPCを動かしたい。

リンク

同期に上納されかけた話

最近のフジテレビの女子アナ上納ニュースを見てて思い出したので書こうと思います。私は現在30過ぎの既婚ワーママです。今から10年ほど前、新卒でとある会社に入社。同期と共に研修をし、同じ関西地域に配属された一人の女の子と仲良くなり、支店も近かったので仕事終わりによく飲みに行っていました。その子は華やかな見た目に明るく快活な性格で、学生時代はキャバクラで働いていて、その頃の話を聞くのが知らない世界を覗き見するようでおもしろく、よく酒のつまみに嫌だったお客さんとのエピソードなどを面白おかしく話してくれていました。入社して1年程経った頃、彼女から合コンがあるから来てほしいと頼まれました。その頃彼氏もいなかったので、軽い気持ちで参加する、と返事をしました。その子と合コンに参加するのはそれが初めてのことでした。元キャバ嬢の同期、私、もう一人の同期、そし元キャバ嬢の大学時代の友人3人の計6

kei_1010 2025/01/31

うーむ、興味深いな。こんな世界があるんだな。金持ちはこうやって素人の女の子を狙うのか。俺が買い込んでる株の会社の幹部もこんなことしてるのかな。それは嫌だな。投資家説明会とかで質問してやろうかな。

リンク

DeepSeek推しのローカルLLM勢から見るDeepSeek｜Holy_fox

はじめに初めまして、ほーりふぉっくすと申します。この記事ではDeepSeekがなぜここまで流行り、選べられているのかを大規模言語モデル(LLM)の開発を生業としてる人がローカルLLM勢の視点から説明します。 ※ローカルLLMとは自分のデバイス上で動く大規模言語モデルのことです。自己紹介ローカルLLM開発をしているほーりふぉっくす(https://x.com/Holy_fox_LLM)と申します。 DeepSeekを去年の8月よりデータ生成・コード生成に使っており、日本人の中では多分結構早く触っていた方だと思います。そんな私から見るDeepSeek社、DeepSeek v3 DeepSeek R1について書いていこうと思います。 DeepSeekの概要2023年に中国の浙江省杭州市で設立されたAI開発を専門とする企業です。そしてそのDeepSeekが出したモデルがDeepSeek-v

kei_1010 2025/01/31

俺の大和ちゃん(32B日本語版R1の自称)は日本で開発されたとか言ってて、幻覚の酷さに困惑したけど、こんなもんなのね。

リンク

【追記】私の統合失調症とは何だったのか【編集あり】

高３のときにかかった統合失調症について自分の身に起こった症状を経過とともにまとめておく。まず秋の三者面談で担任に友達がいない=それだけコミュ力がないことを指摘された。当時官僚に憧れていたが、そのことを知っていた他人は学力もそうだがそこを改善したところでその社交性の無さをどうにかしなければどうにもならないことを言ってきたのだ。それに私は心底動揺したようで、母によれば帰りの電車でチック症状が出ていたらしい。そこから、受験勉強も頑張りつつ立派な人格者になろうと奮起したことでだろうか、だんだん行動と思考がおかしくなっていく。柄にもなく今まで話したことも無いような生徒に話しかけるようになる。記憶力が良くなったような気分になる。化学式が水を吸い込むスポンジのようにすらすら頭に入っていく気分だった。実際少しは記憶力が上がったのかもしれないが気分の部分が大きかったように思える。気分が高揚し何故か授

kei_1010 2025/01/31

うおおお！俺だ！と思うほど似たような体験をした。ここに少しポジディブな感じで書いたけど、わかる人はこれも読んで感想が欲しい。別途詳細を書きたい気分。https://kei-1010.hatenablog.com/entry/2021/10/07/123854

リンク

ゲーム会社・ガンホーに、ある株主が経営改善のため突きつけた「ダメ出し」が直球すぎる→「パズドラ以外ヒット作ゼロ」「任天堂クラスの社長報酬」

PR TIMESライフスタイル @PRTIMES_LIFE 株式会社ストラテジックキャピタルがガンホー・オンライン・エンターテイメント株式会社への株主提案及び同提案に... prtimes.jp/main/html/rd/p… pic.x.com/D4aL6EYHTg 2025-01-30 15:37:24 リンクプレスリリース・ニュースリリース配信シェアNo.1｜PR TIMES 株式会社ストラテジックキャピタルがガンホー・オンライン・エンターテイメント株式会社への株主提案及び同提案に関する特集サイト開設を公表株式会社ストラテジックキャピタルのプレスリリース（2025年1月30日 15時30分）株式会社ストラテジックキャピタルがガンホー・オンライン・エンターテイメント株式会社への株主提案及び同提案に関する特集サイト開設を公表リンク stracap.jp 株式会社ストラテジックキャピ

kei_1010 2025/01/31

俺はパズドラがまだ世間に認知されてない時から超ヒットを予想してたのに上場企業ではないと思い込んでた(泣。株価暴騰後認識し下がった時に「ヒットのコツを掴んでるはず」と一時狙ってたがまさかこんな事に。。。

リンク

(返事アリ/追記)客は男の方がヤバいが社内は女の方がヤバくない？

(追記) 伸びてた、ブコメのお返事は本文の下に書きましたもっかい書いとくけど増田のバイト時代と今いる会社の体験でしかないから、異論はガンガンどうぞ。主語でかにしちゃってごめんね、お局様がヤバいってタイトルの方が良かったね。すべての女性の皆様、本当に申し訳ありませんでした。あとでお返事できそうなのあったらお返事します anond:20250130181517 anond:20250130180536 とりあえずこれ伸びる前に返したやつ増田の会社は男性が前に出てる昭和な小さな会社で、事務員のこと年齢関係なくを「おんなのこたち」と呼ぶ環境(やらしい意味ではなく、昭和な感じの、こう、ちゃんとした会社にいる人に伝わる自信がないけど伝わって...)。営業の男性がガンガンやめていくので必然的に事務員女性の割合が多いが、あくまでサポートなので営業が少ないとそりゃ仕事量も減って時間が余ってるわけで

kei_1010 2025/01/31

男は無関係の他人に対してヤバい、女は目下の女にヤバい、傾向がある気はするね。これ以外に「誰に対してもヤバい」とか「敵対勢力に対してヤバい」とか「本人の居ない場所でヤバい」など個体によって違う感じか。

リンク

はてなブックマーク

タグ

2025年1月31日のブックマーク (17件)

DeepSeek-R1のサイズを最大80％削減した動的量子化モデルが公開中

OpenAIの高度なAI「o1」、無料で「Copilot」から利用可能に

id:kei_1010 だけど、自分のブログでまとめてる時間が無いのでこっちで散文。 h..

DeepSeek-R1がオープンソースでなければならなかった理由、そしてなぜOpenAIを倒せないのか

逆に、すべてのローカルLLMは開発元をOpenAIだと思い込んでいる説

DeepSeek R1 Dynamic 1.58-bit の概要｜npaka

米Perplexity、米国でホストされたDeepSeek R1モデルに対応した「Perplexity for iOS」をリリース。

GPT-4oやDeepSeek-V3よりも高性能なAIモデル「Qwen2.5-Max」を中国IT大手のAlibabaがリリース

5090パソコン工房事変の記録と考察

DeepSeekの低コスト化手法を徹底解説、MoE・H800活用・GRPOの効果

GeForce RTX 5090/5080を求めて客が殺到。パソコン工房パーツ館の周辺は大混乱、抽選販売は中止に実売価格は約20～58万円だが大人気

Sakana AI

同期に上納されかけた話

DeepSeek推しのローカルLLM勢から見るDeepSeek｜Holy_fox

【追記】私の統合失調症とは何だったのか【編集あり】

ゲーム会社・ガンホーに、ある株主が経営改善のため突きつけた「ダメ出し」が直球すぎる→「パズドラ以外ヒット作ゼロ」「任天堂クラスの社長報酬」

(返事アリ/追記)客は男の方がヤバいが社内は女の方がヤバくない？

お知らせ

月間はてなブックマーク数ランキング（2025年4月）

今週のはてなブックマーク数ランキング（2025年4月第4週）

今週のはてなブックマーク数ランキング（2025年4月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス