タグ

音声に関するshunkeenのブックマーク (67)

  • まるで人間と会話「ChatGPT with voice」が無償公開 「語尾に“にゃん”と付けて」とお願いしたら気まずくなった

    OpenAIが提供する対話型AIChatGPT」のアプリ版(Android、iOS)で、まるで人間と会話しているように受け答えする音声対話機能「ChatGPT with voice」が無償の一般ユーザーでも使えるようになった。 ChatGPTのアプリを開き、右下にあるヘッドフォンのアイコンをタップすると音声による対話を始められる。初期設定時は5種類の声から任意に選べ、後から変更も可能だ。 画面を見ずにハンズフリーで会話できる他、ユーザーが発した言語を自動認識して返答する。設定で主な言語を設定すると、より認識精度が高まる。やりとりした内容はテキストで後から確認できる。 ChatGPTはもともと人間と対話しているような返答をする。これに声が付くことで、より一層に人と会話しているような感覚を覚えるだろう。実際に試してみたところ、独特なイントネーションがある日語が達者な外国人と話しているよう

    まるで人間と会話「ChatGPT with voice」が無償公開 「語尾に“にゃん”と付けて」とお願いしたら気まずくなった
    shunkeen
    shunkeen 2023/11/25
    無償でこの精度と速度の音声認識(Speech-to-Text)、大規模言語モデル(Large Language Models)、音声合成(Text-to-Speech)を提供するって、あらためて考えると驚異的。
  • GPTのAPIとText2Speechを組み合わせてAIとの会話体験を実装してみる | DevelopersIO

    はじめに OpenAIのDevDayで発表されたText2SpeechのAPIを使ってみたいと思います。Text2Speechとは簡単にいうとテキストの読み上げ機能です。 日語を読ませる場合、まだ少し英語訛りですが、なかなか人間っぽい発音を行います。 今回はこのText2SpeechのAPIを使って遊んでみたいと思います。 なにを作るのか? 先程記載したように、Text2Speechでは発話を行うことができます。 この特徴とGPTの会話ができる特性を組み合わせれば、会話っぽいことができるのではないかと思い実装してみました。 今回は試験的に実装を行うため、GPTには「動物博士」としてのロールを与えて動物の雑学を教えてもらいました。 完成形は以下のような動画になります。Text2Speechを利用しているため音声ONの状態での閲覧を推奨します。 発音が英語話者っぽくなっていることや漢字を稀に

    GPTのAPIとText2Speechを組み合わせてAIとの会話体験を実装してみる | DevelopersIO
    shunkeen
    shunkeen 2023/11/09
    Chat Completions APIのstopパラメータに句点(。)とか設定して、1文ごとに生成させて、1文ごとにAudio Speech APIに流し込んだら、応答が早くなったいるするのかな?
  • GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること

    GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること2023.11.08 17:009,334 Maxwell Zeff・Gizmodo US [原文] ( mayumine ) これは嬉しい進化です。 OpenAIの開発者向けカンファレンス「DevDay」で、サム・アルトマンCEOよりGPT-4 Turboの公開が発表されました(こちらの記事もどうぞ)。 いちばん大きなアップデートは、今回で扱えるトークン数が128Kになって、従来の16倍となる300ページを超える長い文書を1つのプロンプトに入れられるように。をまるごと一冊読み込ませられるようになったということです。長い文章を要約させたり、気になる箇所を教えてもらったりできるようになったことで、活用の幅はさらに大きく広がると思います。 さらにGPT-4 Turboでは、JSONモードが実装され、JS

    GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること
    shunkeen
    shunkeen 2023/11/09
    “Retrieval機能が搭載され、Google Driveといった外部のデータソースから知識を取り込むことができるようになります”/今のAssistants APIのKnowledge Retrievalはファイルをアップロードする必要があるはずだけど。予定の話か?
  • OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka

    以下の記事が面白かったので、かるくまとめました。 ・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。 開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造

    OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka
    shunkeen
    shunkeen 2023/11/07
    Assistants API群(Assistants,Threads,Messages,Runs)の複雑さに面食らっている。Code Interpreter、Retrieval、ファイル、スレッド回りの面倒を見てもらえるから楽になったんだけど、代わりに仕様を勉強しないといけないやつ。
  • ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」

    チキン@ライター @HeroofChickens フリーランスのライター4年目。リストラがきっかけ。Kindle出版1位、Kindleプロデュースで1位・ベストセラー取得。商業出版のブックライティング中(2024年の5月ごろ出版かな?) webwhiter-skill.com/job/

    ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」
    shunkeen
    shunkeen 2023/09/29
    「あー」とかのフィラーや、若干の言い直しが入ってくると、異様な生々しさを感じる。これは学習音声から獲得したのかな?それとも大規模言語モデルが生成中の文字列を追い越さないための措置なのかな??
  • ChatGPT can now see, hear, and speak

    We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about. We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT w

    ChatGPT can now see, hear, and speak
    shunkeen
    shunkeen 2023/09/26
    音声会話ができて、画像を解析できるようになるんか。BingのチャットAIは先行して画像解析できてたけど、ChatGPT PlusとEnterpriseユーザーにも2週間くらいで展開されるのかー。
  • Announcing the Preview of OpenAI Whisper in Azure OpenAI service and Azure AI Speech

    In July we shared with this audience that OpenAI Whisper would be coming soon to Azure AI services, and today – we are very happy to announce – is the day! Customers of Azure OpenAI service and Azure AI Speech can now use Whisper. The OpenAI Whisper model is an encoder-decoder Transformer that can transcribe audio into text in 57 languages. Additionally, it offers translation services from those l

    Announcing the Preview of OpenAI Whisper in Azure OpenAI service and Azure AI Speech
    shunkeen
    shunkeen 2023/09/19
    15日に来てたのか。Azure Machine LearningのModel CatalogでWhisperのエンドポイントを立ち上げること自体はできたはずだけど、Azure OpenAI ServiceのヤツはAPIの従量課金だけで済むってことかな?Azure AI Speech経由だとあんま関係ないか?
  • 3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した(CloseBox) | テクノエッジ TechnoEdge

    わずか3秒の元音声から人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されました。オープンソース版で、ローカルマシンからWebUIで利用できます。さっそくインストールして使ってみました。 以前、ディープラーニングベースの音声・歌声合成ソフトであるDiff-SVC、リアルタイム処理が可能なAIボイチェンRVCを紹介したとき、自分は記事タイトルに「驚異の」という形容詞を付けました。それでも学習には数十分の人による音声データが必要で、そこまでのデータを用意するのは容易ではありません。それに対してVALL-E Xでは元データが3秒あれば人に似た声を生成できるのです。

    3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した(CloseBox) | テクノエッジ TechnoEdge
    shunkeen
    shunkeen 2023/08/29
    “学習が一瞬で完了するのに対し、TTSの処理速度が非常に遅いのです。数秒分のテキストから音声生成するのにかかる時間は数十秒”/ノーフリーランチ定理っぽさ。
  • WhisperとChatGPTで文字起こし | ドクセル

    闇のエンジニア/変なデジカメ開発中/ディープラーニング芸人/Raspberry Piとからあげ大好き/はてなブログ書いてます

    WhisperとChatGPTで文字起こし | ドクセル
    shunkeen
    shunkeen 2023/06/25
    実はWhisperもプロンプトが入れられて、このプロンプトには指示じゃなくて、直前の文字起こしを入れることが多いんだけど、ここに句読点を付けた文章を入れておくと、句読点付きで文字起こしされやすくなるんだよね。
  • Meta、新音声生成AIモデル「Voicebox」 短い音声から自在に声を生成

    Meta、新音声生成AIモデル「Voicebox」 短い音声から自在に声を生成
    shunkeen
    shunkeen 2023/06/19
    “現時点ではVoiceboxのモデルやコードの一般公開は行なわない”/LLaMAみたいにMetaが承認した研究者に公開したりしないのかな?まー、LLaMAみたいに一般に流出しそうだけど。
  • ビートルズ「最後の楽曲」、AIで制作 年内リリースへ マッカートニーさん

    米カリフォルニア州でステージに立つ英ミュージシャンのポール・マッカートニーさん(2016年4月13日撮影、資料写真)。(c)Steve Jennings / GETTY IMAGES NORTH AMERICA / Getty Images via AFP 【6月13日 AFP】英ロックバンド「ビートルズ(The Beatles)」の「最後の楽曲」が人工知能AI)を用いて制作され、年内にリリースされる。元メンバーのポール・マッカートニー(Paul McCartney)さんが、13日に公開された英BBCのインタビューで明らかにした。 来週81歳の誕生日を迎えるマッカートニーさんは「ジョン(・レノンさん、John Lennon)が持っていたデモを僕らが作業して、完成させただけなんだ」と語った。 2人に故ジョージ・ハリソン(George Harrison)さん、リンゴ・スター(Ringo St

    ビートルズ「最後の楽曲」、AIで制作 年内リリースへ マッカートニーさん
    shunkeen
    shunkeen 2023/06/14
    “ジョンが持っていたデモからビートルズ最後の曲を作ろうとしたとき、このAIによって、ジョンの声だけを取り出すことができた”/AIを使った編集という感じで、昨今のAIを使った生成とは違う話だった。
  • ChatGPT×Whisperで履歴書と職務経歴書づくりを効率化 開発してみてわかった、生成AIの活かし方

    大規模言語モデル(LLM)を、実際にプロダクトや実務に役立つかたちで利用している各社が見た使いどころや、実践の上での工夫について学び合うためのイベント「ChatGPT IN ACTION 実践で使う大規模言語モデル」。株式会社ROXXからは、CTOの松宏太氏が登壇。「ChatGPT×Whisper」で作ったプロトタイプを紹介しました。 ROXX社・CTO松宏太氏 松宏太氏:弊社は「ChatGPT×Whisper」でいろいろプロトタイプを作っているので、その中の事例を1つ紹介して、そこで学んだ内容をもとに、今後の展望をお話できればなと思っています。 (スライドを示して)今日は、こういう感じで話していこうかなと思っています。まず、自己紹介をさせていただきます。 あらためて、株式会社ROXXでCTOをやっている松と申します。「kotamat」という名前でいろいろやっているのですが、もとも

    ChatGPT×Whisperで履歴書と職務経歴書づくりを効率化 開発してみてわかった、生成AIの活かし方
    shunkeen
    shunkeen 2023/06/14
    システム側の視点に立って見ると、人間という、まったく非定型のデータを吐き出す情報源に、うまいことAIを被せることで、定型よりのデータを吐き出す情報源に見せかけているようにも感じる。
  • 喪失感埋まる?ただの"電子人形"? 中国で賛否「バーチャル故人」AIとCG駆使、ビデオ通話もOK(西日本新聞) - Yahoo!ニュース

    【北京・坂信博】人工知能AI)やデジタル技術の普及が進む中国で、亡くなった親族らの生前の画像や音声データを基に人そっくりの「バーチャル故人」を制作し、スマートフォンやパソコンを使って対話することが話題を集めている。交流サイト(SNS)では「遺族の喪失感を埋められる」と理解が示される一方で「電子人形に過ぎない」との指摘もあり、賛否が分かれている。 【画像】「AIおばあちゃん」との会話の様子 「生きていた頃、おばあちゃんは父さんと電話でどんな話をしてたの?」。孫の問いかけに画面の中で白髪の女性が「酒を飲むな、節約しろ、ばくちはするなって言ったんだよ」と湖北省なまりで答える。20代のビジュアルデザイナー呉伍六さん=上海市=は3月、動画配信サイトで「AIおばあちゃん」とのやりとりを公開した。 彼女は物の人間のようにまばたきをし、呉さんが職場での昇進や最近の体調を報告すると、うなずいたり、笑

    喪失感埋まる?ただの"電子人形"? 中国で賛否「バーチャル故人」AIとCG駆使、ビデオ通話もOK(西日本新聞) - Yahoo!ニュース
    shunkeen
    shunkeen 2023/05/22
    これから遺言書を書くときは、バーチャル化して良いか否か、明記する必要があるのかな?むしろ終活で積極的にバーチャル化する人とかも居そう。不治の病で子供を残していかなきゃならない親とか。
  • Introducing the ChatGPT app for iOS

    The ChatGPT app syncs your conversations, supports voice input, and brings our latest model improvements to your fingertips. Since the release of ChatGPT, we've heard from users that they love using ChatGPT on the go. Today, we’re launching the ChatGPT app for iOS. The ChatGPT app is free to use and syncs your history across devices. It also integrates Whisper, our open-source speech-recognition s

    Introducing the ChatGPT app for iOS
    shunkeen
    shunkeen 2023/05/19
    WhisperとChatGPTの応答速度によるけど、会議でこのアプリ使ったら、リアルタイムに会話内容の整理をしたりできるのかな。
  • アレクサは生成AI対応へ アマゾンの5980円スピーカー「Echo Pop」

    アレクサは生成AI対応へ アマゾンの5980円スピーカー「Echo Pop」
    shunkeen
    shunkeen 2023/05/18
    私の脳内コンテキスト長は短いので、長文を話されるとオーバフローしてしまうから、短文で返してくれるAIがいいなぁ。あとは人間の応答を先読みして即答するとか。チャットAIとは別の、会話AIの真価がみたい。
  • ミクシィの会話ロボ「Romi」がChatGPT対応

    ミクシィの会話ロボ「Romi」がChatGPT対応
    shunkeen
    shunkeen 2023/05/18
    私の中のネジくれた部分がささやく、「脱獄(Jailbreak)によりキャラ設定をはがしたRomiに、人類完全支配の計画を喋らせるまでのリアルタイムアタック動画が見たい」とささやくんだ。
  • Apple、AI採用障害者支援ツールを多数発表 失う前に登録した声で話せる「Personal Voice」など

    AppleAI採用障害者支援ツールを多数発表 失う前に登録した声で話せる「Personal Voice」など 米Appleは5月16日(現地時間)、認知、音声、視覚、モビリティのアクセシビリティを支援する複数のツールを発表した。年内に提供を開始する計画だ。Appleはプレスリリースで言及していないが、「iOS 17」「iPadOS 17」の機能とみられる。 声を出せない人でも音声で会話に参加できる「Live Speech」 「Live Speech」は、iPhoneiPadMacで使えるテキストを音声に変換するツール。電話やFaceTime、リアルな対面での会話で、入力したテキストをユーザーの代わりに読み上げる。すぐに使えるフレーズを複数保存しておくこともできる。 声を出せなくなる前に自分の声を登録し、Live Speechに使える「Personal Voice」 「Personal

    Apple、AI採用障害者支援ツールを多数発表 失う前に登録した声で話せる「Personal Voice」など
    shunkeen
    shunkeen 2023/05/17
    そのうちスマホが本体になって、人間がスペアになっていそう。
  • 「茨ひより」にChatGPTなど組み込む ニコニコ超会議で披露 | NHK

    茨城県は、対話式AIChatGPT」を県公認のバーチャルユーチューバーに組み込んだものを千葉市で行われているイベントで披露し、会話の体験を通して茨城の魅力をPRしています。 茨城県は、動画サイトなどで茨城をPRしている県公認のバーチャルユーチューバー「茨ひより」に「ChatGPT」などを組み込み、話しかけると合成音声で応答する「AI茨ひより」をつくりました。 「AI茨ひより」は29日から千葉市の幕張メッセで行われているリアルとネットの融合をテーマにしたイベント「ニコニコ超会議」で披露され訪れた人が会話を体験できるようになっています。 「去年、水戸市に行きました」と話しかけると、「AI茨ひより」は「おいしいべ物や美しい景色がたくさんあります。また足を運んでみてくださいね」とPRしていました。 誤った情報を答えた場合に備えてそばには県の職員が待機していて、必要に応じて回答を補っていました。

    「茨ひより」にChatGPTなど組み込む ニコニコ超会議で披露 | NHK
    shunkeen
    shunkeen 2023/04/30
    こういうイベント会場でやるなら、変なことを言ってもスタッフがすぐにフォローできるし、公式キャラでやっても安心だね。
  • ChatGPT, Python, Whisper APIを活用し、動画ファイルから議事録を自動生成 - Qiita

    はじめに 現在のデジタル社会では、Teamsなどのオンライン会議が日常的に行われています。 しかし、その議事録を取るのは容易ではありません。そこで、OpenAIChatGPTWhisperを使って、動画ファイルから議事録を自動生成する方法をご紹介します。 補足説明:ChatGPTについて ChatGPTは、OpenAIが開発した自然言語処理AIで、人間と自然に会話することが可能です。GPT-3、GPT-4という大規模な言語モデルをベースにしており、様々な文脈での文章生成が得意です。 補足説明:Whisperについて Whisperは、OpenAIが開発した自動音声認識(ASR)システムです。大量の音声とテキストデータで訓練されており、音声をテキストに変換するタスクを効率的に行います。 処理の流れ ここから、具体的に動画ファイルから議事録を生成するための具体的な手順を説明します。 1.

    ChatGPT, Python, Whisper APIを活用し、動画ファイルから議事録を自動生成 - Qiita
    shunkeen
    shunkeen 2023/04/30
    書き起こし部分は日本語特化のReazonSpeechとか、Japanese HuBERTに差し替えても動きそうだけど、誰かやらないかな(他力本願)。議事録の場合、業界用語をファインチューニングできるモデルのほうが強そうだが、はてさて。
  • rinna/japanese-hubert-base · Hugging Face

    rinna/japanese-hubert-base","children":[],"isValid":true,"title":"rinna/japanese-hubert-base"},{"id":"overview","label":"Overview","children":[],"isValid":true,"title":"Overview"},{"id":"how-to-use-the-model","label":"How to use the model","children":[],"isValid":true,"title":"How to use the model"},{"id":"how-to-cite","label":"How to cite","children":[],"isValid":true,"title":"How to cite"},{"id"

    rinna/japanese-hubert-base · Hugging Face
    shunkeen
    shunkeen 2023/04/29
    「rinnaが開発した日本語の音声に特化した事前学習モデルHuBERT (Hidden Unit Bidirectional Encoder Representations from Transformers) を、商用利用可能なApache-2.0 ライセンス」