1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、人間の声と区別がつきにくいレベルに迫るリアルな音声を生成できるオープンソソースのText-to-Speech(TTS)「Fish Audio S2 Technical Report」を取り上げます。 Fish Audio S2は、複数話者による複数ターンの対話生成をネイティブにサポートしている点と、自然言語の指示による単語ごとの細かい感情コントロール指定が可能な点が特長です。 ▲Fish Audio S2の4つの主要機能(自然言語タグによる詳細な感情制御、複数話者・複数ターンの対話生成、高速生成、一貫した声質を保つ長尺音声生成) これまでの多くのAI音声ツールでは、声全体のトーンを「落ち着かせる」「元気にす
以下の文章は、2025年12月5日付けのコリイ・ドクトロウの「The Reverse Centaur’s Guide to Criticizing AI」という記事を翻訳したものである。 Pluralistic 昨夜、ワシントン大学計算神経科学センターが主催する「神経科学・AI・社会」講演シリーズで講演を行った。タイトルは「逆ケンタウロスのためのAI批判ガイド」で、来年6月にFarrar, Straus and Giroux社から刊行予定の次回作『逆ケンタウロスのためのアフターAIの人生ガイド』の原稿をもとにしている。 https://www.eventbrite.com/e/future-tense-neuroscience-ai-and-society-with-cory-doctorow-tickets-1735371255139 講演はチケット完売だったが、以下にその全文を掲載する
AIチップ開発のTaalasが1億6900万ドルを調達:AIモデルごとにカスタムすることでBlackwellの50倍高速かつ低コストを実現 生成AIの進化がエージェント型アーキテクチャへと明確な舵を切る中、AIインフラが直面する最も深刻なボトルネックは「計算能力の絶対量」から「推論における遅延(レイテンシ)」へと移行しつつある。この致命的な課題に対し、あえて汎用計算能力を犠牲にし、特定のAIモデルそのものをシリコン上に物理的に「ハードワイヤリング(直付け)」するという急進的なアプローチで挑む企業が現れた。カナダ・トロントを拠点とする気鋭のAI半導体スタートアップ、Taalasである。 同社は2026年2月19日、1億6900万ドルの新たな資金調達を実施したことを発表した。2024年3月のステルスモードからの脱却以降、Quiet CapitalやFidelity、さらには半導体業界の重鎮であ
ソートはコンピュータサイエンスにおける古典的なタスクですが、これが最先端の LLM と結びつき、新たな研究の潮流が生まれています。 ソートは比較関数さえ定義すれば実行することができます。従来の比較関数は身長・金額・距離のように測定可能な数値の比較を前提としていましたが、この比較関数内で LLM 呼び出しを行うことで「どちらが好みか」「どちらが優れているか」「どちらがクエリに関連するか」といった主観的で曖昧な概念を比較でき、これらの概念に基づいたソートが可能になります。 Python では、二つのオブジェクト a と b を受け取り、a を前に持ってきたければ -1 を、b を前に持ってきたければ +1 を出力する関数 cmp を実装し、functools.cmp_to_key(cmp) をソートのキーに設定すれば任意の基準でソートできます。 まずは雰囲気をつかむために応用例を見てみましょう
推論能力を高めるためには、LLM の事後訓練で使う訓練データは 1 つで十分かもしれません。本稿では訓練データを 1 つだけ使った強化学習についての研究 Reinforcement Learning for Reasoning in Large Language Models with One Training Example(単一の訓練例を用いた大規模言語モデルにおける推論のための強化学習, NeurIPS 2025)について解説します。 この研究の結論を直観的に述べると、厳選した数学の問題 1 問の解き方を LLM にひたすら考えさせ続けると高い推論能力が得られるということです。従来の訓練のように様々な問題を用意する必要はありません。たった 1 問を使った訓練で MATH500 という数学ベンチマークに対する正答率が 36.0% から 73.6% に、6 つの数学ベンチマークの平均正答
Abstract This paper addresses the challenge of reconstructing dynamic 3D scenes with complex motions. Some recent works define 3D Gaussian primitives in the canonical space and use deformation fields to map canonical primitives to observation spaces, achieving real-time dynamic view synthesis. However, these methods often struggle to handle scenes with complex motions due to the difficulty of opti
ちょっと前の Kyoto Tech Talk #8 というイベントで「AIに実況させる」という発表をしたので、もうちょっと詳細な情報も補足しつつ紹介します。 AIに実況させる / AI Streamer - Speaker Deck きっかけ 対戦ゲーム(ポケモンSVランクバトル)の上達につなげたい気持ちで激安USBキャプチャボードを入手してプレイを録画できるようになったのがけっこう前のこと。録画に使うOBSをちょっと設定すれば配信までできることがわかったので試しに配信をしてみると、だんだん実況風のことをしたくなってくるもので、プログラムでゲーム画面の分析をしつつ、コメントをAIに生成させて立ち絵とともに音声化するだけでなんだかそれっぽく、こちらのほうが楽しくなってくる。 最初は全部まとめてひとつのプロジェクトとして作っていたのだけど、ゲーム特有の分析から離れた「コメント生成+立ち絵+音声
LLMは「226-68=」のようなプロンプトを与えると「158」と計算してくれますが、この計算は我々が想像するよりも奇妙な方法で行っていることを紹介します [Nikankin+ ICLR 2025]。 まずは前提条件を確認します。思考の連鎖は使わず、「226-68=」のようなプロンプトに対して「158」のように答えを直接出力する場合を考えます。 一例として Llama3-8B を考えます。Llama3 のトークナイザは 0 から 1000 までの数に 1 つのトークンを割り当てるので、「226-68=」を入力すると、次のトークン「158」が「0」「1」...「157」「158」「159」...「1000」などのトークンの中から、最も確率が高いものとして選ばれます。 ヤニフ・ニカンキンらの発見 [Nikankin+ ICLR 2025] は、Llama3-8B は答えや入力についての粗い条件
拙著『深層ニューラルネットワークの高速化』が重版して第 2 刷となりました。皆さまありがとうございます! 深層ニューラルネットワークの高速化 (ML Systems) 作者:佐藤 竜馬技術評論社Amazon もはや恒例、重版に感謝して書き下ろし専門記事をお届けします。 本稿では、SNS などでもたびたび話題になるトランスフォーマーは RNN であるという話をします。本稿では単に形式的に包含性を指摘するだけでなく、トランスフォーマーと RNN はどの程度似ているのかや、そこから導かれる応用上の意味についても詳しくご紹介します。 本稿は『深層ニューラルネットワークの高速化』の第 6.3 節と第 7.2 節に基づいています。 過去回 拡散モデルと最適輸送(最適輸送第 5 刷) GNN の最新動向(グラフニューラルネットワーク第 3 刷) 深層学習で部分空間を扱うときは射影行列を考えるとよい(グラ
LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈内学習や思考の連鎖に成功し、ひいてはなぜ LLM が外挿に成功することがあるのかについての理解が得られます。本稿ではさまざまな種類の注意機構を観察することでこの問題をひも解きたいと思います。 目次 目次 基本的な考え方 文法ヘッド 注意の受け皿とレジスタトークン 逐次ヘッドと検索ヘッド 帰納ヘッド 関数ベクトル 反復ヘッド まとめ 基本的な考え方 LLM の多くは注意機構と多層パーセプトロン (MLP) を交互に積み上げたアーキテクチャを持ちます。各層は複数の注意機構をもち、それぞれの機構を注意ヘッドと呼びます。 注意機構の役割は 文脈内の検索 ルール・アルゴリズムの実現 です。文脈とはプロンプトと今までの出力のことで、これを踏まえて次トークン予測を行います。注意機構は文脈から次トーク
株式会社I.Y.P Consulting(本社:東京都中央区、代表取締役社長:崔晉豪、設立:2023年10月)は、GPU等の特殊な機材を必要とせず、従来型のLLMと同様の性能を発揮できる生成AI"SVG"の開発に成功したことを発表します。本成果は2025年9月18日、人工知能/機械学習分野で最も権威のある国際会議のひとつ、NeurIPS(米ニューラル情報処理学会)の本会議で正式承認(アクセプト)されました※2。 ※1 特許準備中 ※2 Shohei Ohsawa, NeurIPS'25, Sep 18, US 生成AIを支える大規模言語モデル(LLM)は、数千億〜数兆のパラメータを持ち、学習や推論に膨大な計算資源を要します。その結果、GPUサーバの大量導入や高額な電力コストが避けられず、環境負荷や事業継続性の観点からも課題となっていました。特に、電力需給の逼迫が懸念される日本においては、
無料のAI音声合成ソフト「AivisSpeech」の標準モデル「Anneli」の開発では、声優の山村響(やまむら ひびく)さんの許諾を取っていない――同モデルの作成者による告白により、AivisSpeechがSNS上で波紋を広げている。これを受け、AivisSpeechを運営するWalkers(東京都文京区)は9月8日、「現在、SNSなどで指摘されている事項について、内部確認を行っている」との声明を発表した。一体、何があったのか。 きっかけは「Go! プリンセスプリキュア」の「天ノ川きらら/キュアトゥインクル」役などで知られる声優の山村響さんが、自身のXアカウント(@hibiku_yamamura)で5日に投稿したポストだ。同ポストで、山村さんは「先日、自分の声が無断で生成AIナレーションとして使用されている動画を見つけた」と指摘。所属事務所経由で、動画の制作元に連絡していると明かした。
Style-Bert-VITS2 用のAnneliモデルを公開していた跡地です。 連絡先: kaunista.hf@gmail.com 一部報道での時系列に関する誤報に関して(2025/09/09 11時頃追記) 本件について、一部報道で、「9/5の山村響さんの声明を受けてから、ここに学習元を明かした」という時系列での報道があります。 これについては、下記経緯で記載されている通り誤りであり、8/29に学習元の明記を行いました (参考: 9/3時点でのWeb魚拓)。 なお、山村響さんの声明と、8/29での学習元明記との関係は現状では不明です。 時系列まとめ 2024/02/19: こことBOOTHにモデル公開 2024/11/19: AivisSpeech公開(Anneliモデル標準搭載、事前連絡無し) 2024/11/20: こちらからAivisSpeech側に連絡を取り、Anneliモデ
はじめに Google Cloud Text-to-Speech(TTS)は、テキストを自然な音声に変換する最先端のAI技術です。このブログでは、特に注目すべき天体の名前を持つ30種類の音声について詳しく解説します。これらの音声は、惑星、衛星、恒星などの名前から取られており、それぞれが独自の音声特性を持っています。 まずは、Google Cloud TTSで作成したポッドキャストをご視聴ください。 Google Text-to-Speechの概要 主な特徴 多言語対応:380以上の音声と50以上の言語と方言に対応 高品質な音声合成:DeepMindの音声合成技術とGoogleの強力なニューラルネットワークを活用し、人間に近い品質の音声を生成 カスタマイズ可能:SSMLタグによる詳細な音声制御で、一時停止、数字、日付と時刻のフォーマット、その他の発音指示を追加 複数の音声技術:WaveNet
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く