[B! deeplearning] stealthinuのブックマーク

Claude 4.5 Opus匹敵「Qwen3.6-27B」無償公開、前世代397Bを圧倒

stealthinu 2026/04/23

ベンチで匹敵といっても27Bで？とにわかには信じられない…　なんにしても入れて試してみるけども／マジですごかった。Opus-4.5はわからんが少なくとも１年前のフロンティアモデル以上であるのは確か。

リンク

“ほぼ人間”のAI音声を複数話者で一括生成。日本語対応オープンソースTTS「Fish Audio S2」、単語レベルの感情制御も可（生成AIクローズアップ） | テクノエッジ TechnoEdge

1週間の気になる生成AI 技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI 技術や研究にスポットライトを当てる生成AIクローズアップ。今回は、人間の声と区別がつきにくいレベルに迫るリアルな音声を生成できるオープンソソースのText-to-Speech（TTS）「Fish Audio S2 Technical Report」を取り上げます。 Fish Audio S2は、複数話者による複数ターンの対話生成をネイティブにサポートしている点と、自然言語の指示による単語ごとの細かい感情コントロール指定が可能な点が特長です。 ▲Fish Audio S2の4つの主要機能（自然言語タグによる詳細な感情制御、複数話者・複数ターンの対話生成、高速生成、一貫した声質を保つ長尺音声生成）これまでの多くのAI音声ツールでは、声全体のトーンを「落ち着かせる」「元気にす

stealthinu 2026/03/16

Fish AudioのTTSは細かな感情表現も出来るようになった。RVCが出てからもう3年だもんなあ。そりゃこのくらい進化するか。

リンク

「いずれAIに使い潰される人」のためのAI批判ガイド » p2ptk[.]org

以下の文章は、2025年12月5日付けのコリイ・ドクトロウの「The Reverse Centaur’s Guide to Criticizing AI」という記事を翻訳したものである。 Pluralistic 昨夜、ワシントン大学計算神経科学センターが主催する「神経科学・AI・社会」講演シリーズで講演を行った。タイトルは「逆ケンタウロスのためのAI批判ガイド」で、来年6月にFarrar, Straus and Giroux社から刊行予定の次回作『逆ケンタウロスのためのアフターAIの人生ガイド』の原稿をもとにしている。 https://www.eventbrite.com/e/future-tense-neuroscience-ai-and-society-with-cory-doctorow-tickets-1735371255139 講演はチケット完売だったが、以下にその全文を掲載する

stealthinu 2026/03/15

なんというかすごく典型的なある程度わかってる人のわかってない論。今回のAIを仮想通貨と並べてるところからもうダメ感。あと未だにLLMを次の単語を確率的に予想してるだけという理解とか。まああと2年で結論出るよ。

リンク

AIチップ開発のTaalasが1億6900万ドルを調達：AIモデルごとにカスタムすることでBlackwellの50倍高速かつ低コストを実現 | XenoSpectrum

AIチップ開発のTaalasが1億6900万ドルを調達：AIモデルごとにカスタムすることでBlackwellの50倍高速かつ低コストを実現生成AIの進化がエージェント型アーキテクチャへと明確な舵を切る中、AIインフラが直面する最も深刻なボトルネックは「計算能力の絶対量」から「推論における遅延（レイテンシ）」へと移行しつつある。この致命的な課題に対し、あえて汎用計算能力を犠牲にし、特定のAIモデルそのものをシリコン上に物理的に「ハードワイヤリング（直付け）」するという急進的なアプローチで挑む企業が現れた。カナダ・トロントを拠点とする気鋭のAI半導体スタートアップ、Taalasである。同社は2026年2月19日、1億6900万ドルの新たな資金調達を実施したことを発表した。2024年3月のステルスモードからの脱却以降、Quiet CapitalやFidelity、さらには半導体業界の重鎮であ

stealthinu 2026/02/21

エッジAIはこの方向で実現されるのかも。「特定LLM推論専用チップ」だが設計をある程度設計を自動化できてるから可能なんじゃないのかなあ。

リンク

LLMでソート - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

ソートはコンピュータサイエンスにおける古典的なタスクですが、これが最先端の LLM と結びつき、新たな研究の潮流が生まれています。ソートは比較関数さえ定義すれば実行することができます。従来の比較関数は身長・金額・距離のように測定可能な数値の比較を前提としていましたが、この比較関数内で LLM 呼び出しを行うことで「どちらが好みか」「どちらが優れているか」「どちらがクエリに関連するか」といった主観的で曖昧な概念を比較でき、これらの概念に基づいたソートが可能になります。 Python では、二つのオブジェクト a と b を受け取り、a を前に持ってきたければ -1 を、b を前に持ってきたければ +1 を出力する関数 cmp を実装し、functools.cmp_to_key(cmp) をソートのキーに設定すれば任意の基準でソートできます。まずは雰囲気をつかむために応用例を見てみましょう

stealthinu 2026/02/10

RAG実装とかでもソートの必要性あるからこれらの手法独自に考えたことはあったけど、ちゃんと研究分野として存在してるんだ。ほんとこの方のポストは毎回すごくおもしろいのが多い。

リンク

【西川和久の不定期コラム】 Sora 2級の映像がもうローカルPCで？生成AI動画の急進化を追う

stealthinu 2026/01/10

この記事は去年一昨年からの進化状況がすぐに確認できるということで貴重。動画生成は技術進歩してもローカルだと（主にメモリ）リソース的に厳しいと思ってたがいけるものだな。

リンク

NVIDIA、従来比性能5倍のAI GPU「Rubin」正式発表。2026年後半に登場

stealthinu 2026/01/06

4FPで5倍でも16FPとかだとそこまでではないみたい。なので推論への貢献が特に大きいと。

リンク

訓練データ1個だけでLLMの推論性能を倍にする - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

推論能力を高めるためには、LLM の事後訓練で使う訓練データは 1 つで十分かもしれません。本稿では訓練データを 1 つだけ使った強化学習についての研究 Reinforcement Learning for Reasoning in Large Language Models with One Training Example（単一の訓練例を用いた大規模言語モデルにおける推論のための強化学習, NeurIPS 2025）について解説します。この研究の結論を直観的に述べると、厳選した数学の問題 1 問の解き方を LLM にひたすら考えさせ続けると高い推論能力が得られるということです。従来の訓練のように様々な問題を用意する必要はありません。たった 1 問を使った訓練で MATH500 という数学ベンチマークに対する正答率が 36.0% から 73.6% に、6 つの数学ベンチマークの平均正答

stealthinu 2025/11/26

これめちゃくちゃおもしろい論文だった！知識と思考の学習は別であるということがLLMの学習から説明されてる。そして思考力は良問を考え続けるだけで磨かれるから学習データの頭打ちの問題が起きない。

リンク

『にじボイス』サービス終了に関するお知らせ

株式会社Algomaticは、AIを活用した音声生成プラットフォーム『にじボイス』の提供を、2026年2月4日（水）を持ちまして終了することをお知らせいたします。日頃より『にじボイス』をご利用いただい...

stealthinu 2025/11/21

なんとまあ…　実際法的にはデータに問題なかったのだと予想。なのだが「無断学習」みたいので叩かれることを憂慮してやめたのかな。もしくはあんま儲からないしそれなのに揉め事多いのもなってことでやめたか。

リンク

FreeTimeGS

Abstract This paper addresses the challenge of reconstructing dynamic 3D scenes with complex motions. Some recent works define 3D Gaussian primitives in the canonical space and use deformation fields to map canonical primitives to observation spaces, achieving real-time dynamic view synthesis. However, these methods often struggle to handle scenes with complex motions due to the difficulty of opti

stealthinu 2025/11/04

動画内で自由に視点を変更できるガウシアンスプラティング。動画編集で後から視点変更したり、VR撮影でないものもVRコンテンツ化したりできそう。

リンク

@motemen/ai-streamerでAIずんだもんに実況してもらう - 詩と創作・思索のひろば

ちょっと前の Kyoto Tech Talk #8 というイベントで「AIに実況させる」という発表をしたので、もうちょっと詳細な情報も補足しつつ紹介します。 AIに実況させる / AI Streamer - Speaker Deck きっかけ対戦ゲーム（ポケモンSVランクバトル）の上達につなげたい気持ちで激安USBキャプチャボードを入手してプレイを録画できるようになったのがけっこう前のこと。録画に使うOBSをちょっと設定すれば配信までできることがわかったので試しに配信をしてみると、だんだん実況風のことをしたくなってくるもので、プログラムでゲーム画面の分析をしつつ、コメントをAIに生成させて立ち絵とともに音声化するだけでなんだかそれっぽく、こちらのほうが楽しくなってくる。最初は全部まとめてひとつのプロジェクトとして作っていたのだけど、ゲーム特有の分析から離れた「コメント生成＋立ち絵＋音声

stealthinu 2025/10/31

自動でゲーム配信をするシステム。キャプチャした動画から解説を自動生成してVOICEVOXで音声生成してOBSでコンテンツを組み合わせて配信へ。似たようなことやってるからすごくわかる。

リンク

LLMのキモい算術 - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

LLMは「226-68=」のようなプロンプトを与えると「158」と計算してくれますが、この計算は我々が想像するよりも奇妙な方法で行っていることを紹介します [Nikankin+ ICLR 2025]。まずは前提条件を確認します。思考の連鎖は使わず、「226-68=」のようなプロンプトに対して「158」のように答えを直接出力する場合を考えます。一例として Llama3-8B を考えます。Llama3 のトークナイザは 0 から 1000 までの数に 1 つのトークンを割り当てるので、「226-68=」を入力すると、次のトークン「158」が「0」「1」...「157」「158」「159」...「1000」などのトークンの中から、最も確率が高いものとして選ばれます。ヤニフ・ニカンキンらの発見 [Nikankin+ ICLR 2025] は、Llama3-8B は答えや入力についての粗い条件

stealthinu 2025/10/27

まあでも人間もだいたいこのくらい、みたいな粗い演算とちゃんとCoTして出すのとを組み合わせてる感じあるからそんなにキモくないかも。あとソロバンやってる人の暗算中の頭の中考えたらそっちのがキモいはず。

リンク

Koida Lab

stealthinu 2025/10/17

技科大の視覚神経科学研究室の冒頭文がすごく示唆的。『視覚科学の分野が成熟してきてわれわれは一体何をしているのだという自己批判がある』『深層学習に始まるAIブームによってそれは達成されてしまった』

deeplearning

リンク

Huawei、LLMの精度を保持したまま最大70%メモリ削減できる新手法を発表──コンシューマーGPUでの高精度生成AI実行も視野に | Ledge.ai

Top > 学術＆研究 > Huawei、LLMの精度を保持したまま最大70%メモリ削減できる新手法を発表──コンシューマーGPUでの高精度生成AI実行も視野に

stealthinu 2025/10/13

ローカルLLMにとって量子化は必須だしメモリ削減出来るのはすごくありがたい。この手の技術は中国系のとこから出てくる率高いよな…

リンク

トランスフォーマーは RNN である - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

拙著『深層ニューラルネットワークの高速化』が重版して第 2 刷となりました。皆さまありがとうございます！深層ニューラルネットワークの高速化 (ML Systems) 作者:佐藤竜馬技術評論社Amazon もはや恒例、重版に感謝して書き下ろし専門記事をお届けします。本稿では、SNS などでもたびたび話題になるトランスフォーマーは RNN であるという話をします。本稿では単に形式的に包含性を指摘するだけでなく、トランスフォーマーと RNN はどの程度似ているのかや、そこから導かれる応用上の意味についても詳しくご紹介します。本稿は『深層ニューラルネットワークの高速化』の第 6.3 節と第 7.2 節に基づいています。過去回拡散モデルと最適輸送（最適輸送第 5 刷） GNN の最新動向（グラフニューラルネットワーク第 3 刷）深層学習で部分空間を扱うときは射影行列を考えるとよい（グラ

stealthinu 2025/09/30

これ読んでなかった。transformerはRNNを展開して並列処理できるようにしてある、みたいな雑な理解だった。めちゃくちゃ勉強になる。

リンク

LLM のアテンションと外挿 - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈内学習や思考の連鎖に成功し、ひいてはなぜ LLM が外挿に成功することがあるのかについての理解が得られます。本稿ではさまざまな種類の注意機構を観察することでこの問題をひも解きたいと思います。目次目次基本的な考え方文法ヘッド注意の受け皿とレジスタトークン逐次ヘッドと検索ヘッド帰納ヘッド関数ベクトル反復ヘッドまとめ基本的な考え方 LLM の多くは注意機構と多層パーセプトロン (MLP) を交互に積み上げたアーキテクチャを持ちます。各層は複数の注意機構をもち、それぞれの機構を注意ヘッドと呼びます。注意機構の役割は文脈内の検索ルール・アルゴリズムの実現です。文脈とはプロンプトと今までの出力のことで、これを踏まえて次トークン予測を行います。注意機構は文脈から次トーク

stealthinu 2025/09/30

非常に面白かった。アテンションがやってることについての研究がいろいろ紹介されてる。なぜtransformerがこれほどうまくいくのかよくわかってないところもあったと思うんだけど理論的な研究もだいぶ進んでるのだな。

リンク

世界初！日本企業がGPUを不要とする生成AI (LLM) の開発に成功。／2025年10月10日の都内イベントで先行発表

株式会社I.Y.P Consulting（本社：東京都中央区、代表取締役社長：崔晉豪、設立：2023年10月）は、GPU等の特殊な機材を必要とせず、従来型のLLMと同様の性能を発揮できる生成AI"SVG"の開発に成功したことを発表します。本成果は2025年9月18日、人工知能／機械学習分野で最も権威のある国際会議のひとつ、NeurIPS（米ニューラル情報処理学会）の本会議で正式承認(アクセプト)されました※2。 ※1 特許準備中　　※2 Shohei Ohsawa, NeurIPS'25, Sep 18, US 生成AIを支える大規模言語モデル（LLM）は、数千億〜数兆のパラメータを持ち、学習や推論に膨大な計算資源を要します。その結果、GPUサーバの大量導入や高額な電力コストが避けられず、環境負荷や事業継続性の観点からも課題となっていました。特に、電力需給の逼迫が懸念される日本においては、

stealthinu 2025/09/26

えっ！？そんなの可能？？と思ったら開発者は大澤昇平氏か。

リンク

「自分の声が無断で生成AIに」──プリキュア声優の山村響さんが告発　とある音声合成AIが波紋　経緯は

無料のAI 音声合成ソフト「AivisSpeech」の標準モデル「Anneli」の開発では、声優の山村響（やまむらひびく）さんの許諾を取っていない――同モデルの作成者による告白により、AivisSpeechがSNS上で波紋を広げている。これを受け、AivisSpeechを運営するWalkers（東京都文京区）は9月8日、「現在、SNSなどで指摘されている事項について、内部確認を行っている」との声明を発表した。一体、何があったのか。きっかけは「Go! プリンセスプリキュア」の「天ノ川きらら／キュアトゥインクル」役などで知られる声優の山村響さんが、自身のXアカウント（@hibiku_yamamura）で5日に投稿したポストだ。同ポストで、山村さんは「先日、自分の声が無断で生成AIナレーションとして使用されている動画を見つけた」と指摘。所属事務所経由で、動画の制作元に連絡していると明かした。

stealthinu 2025/09/09

AivisSpeechのAnneliモデル問題、結構大きく取り上げられてるな。商用利用可能ライセンスでオープンで公開していたのを公式で取り入れてしまったと。うーん…

リンク

kaunista/style-bert-vits2-Anneli · Hugging Face

Style-Bert-VITS2 用のAnneliモデルを公開していた跡地です。連絡先: kaunista.hf@gmail.com 一部報道での時系列に関する誤報に関して（2025/09/09 11時頃追記）本件について、一部報道で、「9/5の山村響さんの声明を受けてから、ここに学習元を明かした」という時系列での報道があります。これについては、下記経緯で記載されている通り誤りであり、8/29に学習元の明記を行いました (参考: 9/3時点でのWeb魚拓)。なお、山村響さんの声明と、8/29での学習元明記との関係は現状では不明です。時系列まとめ 2024/02/19: こことBOOTHにモデル公開 2024/11/19: AivisSpeech公開（Anneliモデル標準搭載、事前連絡無し） 2024/11/20: こちらからAivisSpeech側に連絡を取り、Anneliモデ

stealthinu 2025/09/09

AivisSpeechのデフォルト利用可能なモデルととして入ってたAnneliというモデルの作成者がノベルゲームの音声を学習元に使ったと告知して炎上。ライセンスを「CreativeML Open RAIL-M」でやってたから公式が取り込んだのが原因ぽい

リンク

Google Text-to-Speech 完全ガイド - 天体の名を持つ30の音声とその詳細

はじめに Google Cloud Text-to-Speech（TTS）は、テキストを自然な音声に変換する最先端のAI 技術です。このブログでは、特に注目すべき天体の名前を持つ30種類の音声について詳しく解説します。これらの音声は、惑星、衛星、恒星などの名前から取られており、それぞれが独自の音声特性を持っています。まずは、Google Cloud TTSで作成したポッドキャストをご視聴ください。 Google Text-to-Speechの概要主な特徴多言語対応：380以上の音声と50以上の言語と方言に対応高品質な音声合成：DeepMindの音声合成技術とGoogleの強力なニューラルネットワークを活用し、人間に近い品質の音声を生成カスタマイズ可能：SSMLタグによる詳細な音声制御で、一時停止、数字、日付と時刻のフォーマット、その他の発音指示を追加複数の音声技術：WaveNet

stealthinu 2025/09/02

Google CloudeのTTSで音声タイプ毎の違いについて。Chirpが一番新しいモデルのやつなのね。この辺の公式の説明ってどこにあんだろ？

リンク

はてなブックマーク

タグ

関連タグで絞り込む (149)

deeplearningに関するstealthinuのブックマーク (1,861)

お知らせ

今週のはてなブックマーク数ランキング（2026年4月第3週）

今週のはてなブックマーク数ランキング（2026年4月第2週）

今週のはてなブックマーク数ランキング（2026年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス