タグ

voiceと技術に関するfunaki_naotoのブックマーク (16)

  • 18世紀に作られた人間の音声をシミュレートする機械たちの知られざる歴史

    近年では、AI技術や合成音声技術の進歩に伴って、まるで人間の声のような音声シミュレーションは目覚ましい発展を遂げています。しかし、18世紀のヨーロッパでも、人間の声をシミュレートするような技術や機械が数多く開発されていました。 “You Are My Friend”: Early Androids and Artificial Speech — The Public Domain Review https://publicdomainreview.org/essay/early-androids-and-artificial-speech/ 最初の「人間の機能を模した」アンドロイドが誕生したのは、1738年2月のこと。エンジニアのジャック・ヴォーカンソンがアントワーヌ・コワズヴォーの「フルートを演奏する羊飼い」をモデルに製作し、パリのサンジェルマン見市で展示されたアンドロイドは、これまで

    18世紀に作られた人間の音声をシミュレートする機械たちの知られざる歴史
  • 「ゆっくりしていってね!!!」の声はどうやって生まれたのか 開発者が語る“起業エンジニアの生存戦略”

    「ゆ っ く り し て い っ て ね ! ! !」 ニコニコ動画などで10年超にわたって使われているフレーズですから、ご存じの方は“脳内再生余裕でした”という感じでしょう。ゲーム実況などの分野では「ゆっくりボイス」と呼ばれる合成音声を使う手法が定着しており、耳にしただけで、丸っこくデフォルメされた東方Projectのキャラクターが頭に浮かぶ人もいるのではないでしょうか。 筆者は「魔理沙だぜ」の方が脳内再生しやすいです(AsciiArt*AsciiArtより) しかし、意外と知られていないのは、この合成音声の“正体”です。 使用されているエンジン「AquesTalk」は来、動画制作ではなく、組み込み用途向けに開発されたもの。また、有名声優などの声をベースにしているわけでもなく、エンジニアが自分の耳を頼りにチューニングし、手作業で作り上げたといいます。 今や「日におけるインターネット文

    「ゆっくりしていってね!!!」の声はどうやって生まれたのか 開発者が語る“起業エンジニアの生存戦略”
  • コンピューターは人のように話せるか? - 本と奇妙な煙

    高周波の聴覚 チンパンジーと現生人類の発声 なぜサルは話さないのか ベルヌーイ効果 カストラート 舞台演劇と音響効果 オペラ歌手 テープレコーダーに出資したビング・クロスビー ソノボックス なぜ人の聴覚は会話に必要のない高域までカバーしているのか、といった話から、テープレコーダーに出資したビング・クロスビーの話まで。 コンピューターは人のように話せるか?―話すこと・聞くことの科学 作者:トレヴァー・コックス 発売日: 2020/10/08 メディア: 単行 高周波の聴覚 数百万年前、哺乳類は恐竜から逃れようとやぶを走り回る小動物だった。互いの鳴き声を聞き取るには、高周波の聴覚が必要だった。(略) [大型化してヒトとなっても聴覚の範囲が狭まらなかったのは、音の出どころを特定するの高周波が必要だったから] チンパンジーと現生人類の発声 話す能力の進化をもっとよく理解するために、ヒトを他の現

    コンピューターは人のように話せるか? - 本と奇妙な煙
  • AI歌声合成は、もう人の歌声と区別できないレベルに。東北イタコも追加されたNEUTRINOの新バージョン、0.400が無料でリリース|DTMステーション

    今年に入り、AI歌声合成の動きが激しく、その進化のすごさ、クオリティーの高さには驚くばかりです。中でも注目すべきは今年2月に彗星のように登場し、フリーウェアとして公開されたNEUTRINO(ニュートリノ)です。これはSHACHI(@SHACHI_NEUTRINO)さんが開発するフリーのソフトであり、これまで東北きりたん、謡子、そしてJSUT(いずれも学術的に公開されている歌声データベースを利用して開発している)の3つの歌声ライブラリが同梱されてました。そこに9月18日、新たに東北イタコが追加されたのです(9月18日現在、公開されている0.400には東北きりたん、東北イタコのみが同梱。それ以外については後日公開される模様です)。 先日、「AIきりたんに次ぐ第2のAIシンガー、東北イタコの歌唱データベース制作プロジェクトのクラウドファンディングスタート」という記事でも紹介し、無事にクラウドファ

    AI歌声合成は、もう人の歌声と区別できないレベルに。東北イタコも追加されたNEUTRINOの新バージョン、0.400が無料でリリース|DTMステーション
  • 誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)

    著者の声を録画・録音して声を変換し元の映像と組み合わせてみた映像です。 このときの変換元の音声は撮影用のスマートフォンで録音しており、部屋の残響が含まれるなど声が少し不鮮明になる収録環境ですが、それでもしっかり声変換できていることがわかると思います。 概要 Dwango Media Villageの廣芝です。 誰の声でも狙った複数の人の声に変えることができる声変換システムを開発し、実際に声を変えることができるデモページを公開しました。 (2022年5月 SeirenVoiceシリーズの製品化に伴いデモページは終了しました。) この記事では、声変換技術を研究開発する際に取り組んだ課題について紹介します。 声の変換技術には、リアルタイム性と品質のトレードオフがあります。 既存の声変換システムはリアルタイム性を重視する傾向がある一方、品質を重視したものはあまり見かけません。 品質を優先した声変換

    誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)
  • 無音声認識の可能性 - A Successful Failure

    音声入力がなかなか普及しない理由として、発話しなければならないと言う点がある。周りに誰もいない環境ならそれでも良いが、周りに他人がいる場合に独り言のように発話するのはなかなか難しい。周りの人に迷惑になることも問題だが、入力内容が周りの人に知れるということも問題である。さらに騒音下だとただでさえ悪い音声認識率がさらに下がると言う問題もある。音声認識の最大の欠点は声を出すことにあったのだ。 奈良先端科学技術大学院大学音情報処理学講座 鹿野研究室で開発された「非可聴つぶやき認識(無音声認識)」はこれらの課題を解決し、音声入力の利便性を大きく向上させる可能性をもつ技術である。非可聴つぶやき認識は、囁き声よりも小さな第三者に聴取不能な声帯の振動を伴わないつぶやき(Non-Audible Murmur:NAM)の体内伝導音を、耳の裏側に装着する身体表接着型マイクロフォンによって認識するものだ(無音声認

    無音声認識の可能性 - A Successful Failure
  • 自分の声をキャラクターの声にリアルタイム変換するSFのような技術、リアチェンvoiceが楽器フェアに登場!|DTMステーション

    音声信号処理により、自分の声をまったく別の人の声に変換するというSFのような技術が登場してきました。東京・世田谷区にあるクリムゾンテクノロジーが開発した「リアチェンvoice」というのがそれ。リアル&リアルタイムに音声を変換する、ということから名付けられているそうですが、すでに8月から販売も開始されているという現実となっている技術なのです。 奈良先端科学技術大学院大学の戸田智基客員教授(名古屋大学教授)の戸田智基教授の研究グループとクリムゾンテクノロジーによる共同開発で、製品は標準版とプロ版の2種類。実際、どのくらい使えるものになっているのかを見てきましたので、紹介してみたいと思います。 リアルタイムにしゃべる声をキャラクターの声に変換するリアチェンvoice 最近、ゆるキャラの着ぐるみが各地で活躍しています。ただ、ゆるキャラをしゃべらせるとなると、なかなか無理も生じてきます。アニメなどの

    自分の声をキャラクターの声にリアルタイム変換するSFのような技術、リアチェンvoiceが楽器フェアに登場!|DTMステーション
  • [PDF]統計的音声合成技術の 現在・過去・未来

  • 徹底究明! 「携帯電話の声は、本人の声ではない」説は本当なのか?【後編】 ~電話での通話のしくみ~

    巷で囁かれている噂「携帯電話から聞こえる声は、しゃべっている人の声ではない」が真実かどうかを探るため、通信全般の研究を行っているKDDI研究所に乗り込んだ人体模型くん。 前編では、携帯電話のしくみを語るうえで欠かせない「人の声のしくみ」について解説しました。後編では、同じくKDDI研究所の堀内俊治氏が、この噂の真相について詳細に解説していきます! モ「さっきまでの話で、「携帯電話から聞こえる声は、喋っている人の声ではない」という噂は当だということはわかったけど、携帯電話が「限りなく人に近い声をつくり出している」っていうのは、どういうことッスか?」 堀内「すこし専門的な話になりますが、順を追って説明しましょう。はじめに、電話における音声符号化の方法は大きく3つほどあります。 まず「波形符号化方式」。これは固定電話に使われる方法で、前編でも説明したように、声の波形そのものを電気の波形に

    徹底究明! 「携帯電話の声は、本人の声ではない」説は本当なのか?【後編】 ~電話での通話のしくみ~
  • 「スマホの声は、本人の声ではない」説は本当?人の声が届く仕組みを解説

    ――声帯が震えるか震えないかで、声の出方が変化するわけですね。人が声を出す際には、声帯が重要な役割を果たしていると。 堀内「はい、この声を発する仕組みと電話の通話とのあいだに大きな関係があるんですが、同じ電話でも有線の固定電話の場合、原理的には人が口から出した声をそのまま届けています。これは声が糸を震わせて相手のところに届く「糸電話」とおおむね同じ仕組みで、固定電話では声を「波形」のまま、届けています。 しかしスマホのような無線で通話をするときには「限りなく人の声には近い、つくられた声=合成音声」を相手に届けているんです。」 合成音声にはどのような種類があるのか ――合成音声というと、ボカロ(ボーカロイド)やSiriなどが浮かびます。スマホの通話の声も同じ仕組みなんですか? 堀内「同じ合成音声でも、実はつくる方法が違います。ボカロやSiriなどは、もともと声優さんがいて成り立つ方法を使っ

  • 自分の声、他人そっくりに 電通大が変換技術開発 - 日本経済新聞

    電気通信大学の中鹿亘助教は自分の声を簡単に他人の声そっくりに変換できる技術を開発した。最新の人工知能AI技術を活用した。録音などがあれば、亡くなった声優の声で新たなアニメ番組を作れるようになる。海外映画やドラマを吹き替える際に出演している俳優の声そっくりにすることも可能だ。企業と協力し実用化を目指す。AIに8人が読み上げたそれぞれ別の約20の文章を読み込ませた。AIは高さや長さなどの音情

    自分の声、他人そっくりに 電通大が変換技術開発 - 日本経済新聞
  • 性別、年齢などを操作して声を自在に合成する「声デザイン技術」、東芝

    sponsored X-500(JN-IPS24X500FR-H-C6)をレビュー 500Hzディスプレーの実力を14900KF&RTX 4090搭載PCで絞り出す! 合計約80万円でロマンを追求 sponsored 簡単アプリ操作でBluetooth、AirPlay 2、USB Type-C、AUXに接続可能 超渋いレトロラジオ風の高機能スピーカー「Edifier ED-D32」は買い! sponsored 上位モデルは今後も増えるであろう四角いLCDディスプレーのCPUクーラーを採用! 人気上昇中の液晶付きCPUクーラーを中心に映えBTOPCを構成! そのコダワリを聞いた sponsored AI向けのワークステーションやサーバーもズラリ ほかにない特徴や魅力が多数! COMPUTEXのSilverStoneブースをチェック sponsored クラウドストレージの使いやすさ、快適さの

    性別、年齢などを操作して声を自在に合成する「声デザイン技術」、東芝
  • [丸善出版ニュース] 丸善ライブラリー385「おしゃべりなコンピュータ—音声合成技術の現在と未来」* 『ドラえもん』の「声のキャンデー」が現実に? * 2015年4月発売

    丸善ライブラリー385「おしゃべりなコンピュータ —音声合成技術の現在と未来」 『ドラえもん』の「声のキャンデー」が現実に? 2015年4月発売 『ドラえもん』の「声のキャンデー」や『ミッション・インポッシブル3』の「声の変装」などフィクション作品で私たちを楽しませ、驚かせている音声合成シーンですが、現実はもうフィクション作者たちの想像力をはるかに超えたところまで来ています。 書では、現在の音声合成は、いったいどこまで進んでいるのか?どんなふうに利用されているのか?どのような人の、どのような夢を現実にしてきたのか?これから、どのような応用がなされていく可能性があるのか?その応用は人類の将来をどのように変えていくのか?「音声合成」の現在と未来に迫ります。 ■目次 第一章 「コンピュータの声」に囲まれた私たちの日常 第二章 歌うコンピュータ 第三章 「化ける」コンピュータ――片思いの相手に話

  • 歌手の評価って難しい。 - 烏は歌う(はてなダイアリー跡地)

    噂の某アニソングランプリ騒動についてTwitterで色々とつぶやいてたら結構反応が多かったので、色々まとめてみる。 状況としては、「グランプリの人が歌唱力低すぎ!」というので炎上しているという感じですね。 前書き(書く前から言い訳とも) あくまで、素人の戯言です。 また、アニソンに対する熱意とかの諸々はそんなにありません。 わざわざ自分にとって関係ない、燃え上がりそうな話題に手を出すのはあんまり得な話でもないのですが、自分の音楽観とか声についての色々を考えなおすのにいい感じのネタなので、ひっそり書きます。 そもそも、評価の軸はどこ? アニソングランプリという企画についてそれほど詳しくはないので断言はできないのですが、 「アニソンが上手い人を集めてコンテストをしよう!」 「アニソンを題材に、新人オーディションをしよう!」 という、2つの企画の軸が、というか建前と音の両立が難しくなってきての

    歌手の評価って難しい。 - 烏は歌う(はてなダイアリー跡地)
  • 初音ミクと「ゆっくり」の声、何が違う? アクエスト社に聞く (1/5)

    ニコニコ動画好きなら、東方Projectの派生キャラクター「ゆっくり」の声はご存知のはず。 「SofTalk」(ソフトーク)という無償ソフトを使って作られた、独特の間延びした口調はまさに「ゆっくり」としか言いようがないわけだが、そのソフトークが使っている音源ライブラリの名を「AquesTalk」(アクエストーク)という。 またUTAU(関連記事)のデフォルト音声として有名な「唄音ウタ」、通称デフォ子の音源も、実はこのAquesTalkだ。 AquesTalkは株式会社アクエストが開発し、無償頒布している音声ライブラリ。元来組み込み向けに開発されたため、非常に容量が小さい。現在はAquesTalk2に発展したが、それでも音声データ込みでわずか約50KBという軽さ。これは競合するものがない。 アクエスト社自身でも、このAquesTalkのライブラリを使った歌唱ソフト「AquesTone」を開発

    初音ミクと「ゆっくり」の声、何が違う? アクエスト社に聞く (1/5)
  • 1