並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 14 件 / 14件

新着順 人気順

Audioの検索結果1 - 14 件 / 14件

  • Googleの自分専用AI作成サービス「NotebookLM」で学習データにYouTubeの動画を指定可能に

    GoogleのカスタムAI作成サービス「NotebookLM」に、YouTubeのURLや音声ファイルを追加できる機能が搭載されました。これにより、YouTubeや音声ファイルの情報に基づいて質問に答えたり要約したりできるAIを作成できるようになります。 NotebookLM adds audio and YouTube support, plus easier sharing of Audio Overviews https://blog.google/technology/ai/notebooklm-audio-video-sources/ NotebookLMは自分専用のAIアシスタントを作成できるサービスで、参考情報としてテキストファイルやPDFファイルなどをアップロードすると、アップデートしたファイルの内容を把握して要約したり質問に答えたりしてくれます。 無料で自分専用のAIを日

      Googleの自分専用AI作成サービス「NotebookLM」で学習データにYouTubeの動画を指定可能に
    • OpenAI の Realtime API の使い方|npaka

      以下の記事が面白かったので、簡単にまとめました。 ・Realtime API 1. Realtime API「Realtime API」は、低遅延のマルチモーダル会話エクスペリエンスを構築できるAPIです。現在、入力と出力の両方でテキストと音声がサポートされており、「Function Calling」もサポートされています。 特徴は次のとおりです。 ・ネイティブ音声合成 テキストの仲介がないため、低遅延で、ニュアンスに富んだ出力が得られる ・自然で操作可能な音声 モデルは自然な抑揚を持ち、笑ったり、ささやいたり、トーンの方向に従うことができる ・同時マルチモーダル出力 テキストはモデレーションに役立ち、リアルタイムよりも高速なオーディオにより安定した再生が保証される 2. クイックスタート「Realtime API」は、サーバー上で実行するように設計された WebSocket インタフェー

        OpenAI の Realtime API の使い方|npaka
      • Notebook LMを活用して音声配信をもっと楽しむ方法

        NotebookLM NotebookLMはGoogleが提供している生成AIを活用したサービスです。なんと(2024年10月現在は)無料で使えます。 NotebookLMは、Googleの生成AI Geminiのロングコンテキスト(多くの量のプロンプトを扱うことができるという意味)の特徴を活かした、文章の要約やQA対応が得意です。文章は、直接プロンプトに入れている(と思われる)ので、単なるRAGとは違う(と思われ)ます。 RAGとロングコンテキストのどっちが良いのかというのは、色々議論があるようです。例えばLost in the Middle: How Language Models Use Long Contextsという論文では「ロングコンテキストの真ん中の情報は失われるよ」みたいなことが書いてありますがRetrieval Augmented Generation or Long-C

          Notebook LMを活用して音声配信をもっと楽しむ方法
        • Hugging Faceでダウンロード可能なAIモデルの数が100万個を突破

          AIプラットフォームのHugging Faceでは、Metaの「Llama」やGoogleの「Gemma 2」など、数多くのAIモデルが公開されています。そんなHugging Faceでダウンロード可能になったAIモデルの数が2024年9月をもって100万個を突破したことが報告されています。 1M Models on @huggingface Hub ???? Models are going exponential month over month and September isn't even over yet ???? pic.twitter.com/1NGRA4tqxN— Caleb (@calebfahlgren) September 26, 2024 Hub Stats - a Hugging Face Space by cfahlgren1 https://huggingf

            Hugging Faceでダウンロード可能なAIモデルの数が100万個を突破
          • ヘッドホンレビュー beyerdynamic DT 990 Pro ー 荒々しいまでに美しいサウンド。広大な音場。一度聴いたら手放せなくなる名品 - 時の化石

            どうもShinShaです。今回はドイツ製ヘッドホン beyerdinamic(ベイヤーダイナミック) DT 990 Proのレビューです。 音場の広いヘッドホン欲しい。コンサートホールやライブハウスの臨場感あふれる音を聴きたい。僕の興味は、イヤホンからヘッドホンに移りつつあります。今回、Web情報を調べ何本も試聴して選んだ一本は、一般には知名度がいまひとつのドイツ製ヘッドホンでした。 インピーダンスが高く、さらに音が歪みやすい。取り扱いがなかなか難しい製品です。しかしそれを乗り越えると素晴らしい音で鳴ってくれる。広い音場の中に響く、鮮烈な高音と荒々しいまでの低音。 とても素晴らしいヘッドホンです。製品が開発されてから40年経っても、一つひとつドイツ国内で手作りされている。その上価格もSENNHEZIER製品などより安い。最近は毎晩、このヘッドホンのサウンドに溺れています。 beyerdin

              ヘッドホンレビュー beyerdynamic DT 990 Pro ー 荒々しいまでに美しいサウンド。広大な音場。一度聴いたら手放せなくなる名品 - 時の化石
            • じつは、今までのシステムと「まったく違う」わけじゃない…いままでの「CDプレーヤーに代わる」存在とは(山之内 正)

              類稀なる高音質で、話題になったネットオーディオ。しかし、割高な価格とダウンロードのわずらわしさから一部のマニアにしか支持されませんでしたが、高音質定額制配信サービスの出現で、大きく変わろうとしています。 ベテランと言われるオーディオ愛好家の中にも、CDやレコードなどの「パッケージメディア(パッケージ音源)」によるオーディオなら知識も経験もあるが、ネットワークが重要になった最近のオーディオに関しては、専門用語の意味もわかりにくいと感じている人もいるかと思います。 はじめてネットオーディオに挑戦するオーディオファンや音楽ファンを対象に、機材の選び方、高音質ストリーミングのセッティング、煩わしいネットの設定などなど、聴き放題の“1億曲ライブラリー”を手にするノウハウをご紹介しましょう。 ネットオーディオのシステムは、従来のシステムとどう違うのか ネットオーディオのシステムの全体像とデータの流れを

                じつは、今までのシステムと「まったく違う」わけじゃない…いままでの「CDプレーヤーに代わる」存在とは(山之内 正)
              • Googleの「NotebookLM」、YouTube動画の概要生成も可能に

                米Googleは9月26日(現地時間)、「Gemini 1.5 Pro」搭載のメモアプリ「NotebookLM」のソース(情報源)として、YouTubeのURLとオーディオファイル(MP3、WAVなど)を追加できるようにしたと発表した。 NotebookLMは、ユーザーが選択したソースだけに基づいて、事実の要約、複雑なアイデアの説明、新しいつながりのブレインストーミングを行うことができる「仮想リサーチアシスタント」。日本でも日本語で利用できる。 これまで、ソースとしてGoogleドライブ、PDF、テキストファイル、コピーされたテキスト、Webサイト(URL)を追加できた。 ソースを選択する画面にYouTubeのリンクとAudio(e.g. mp3)が表示されるようになった。 YouTube動画からインポートされるのは、文字起こしのみ。音声のない動画は対象外だ。文字起こしが50万語未満であれ

                  Googleの「NotebookLM」、YouTube動画の概要生成も可能に
                • ノートブックAI「NotebookLM」が音声資料に対応 ~YouTubeリンクも学習/先週導入された「Audio Overview」(オーディオまとめ)の共有機能も

                    ノートブックAI「NotebookLM」が音声資料に対応 ~YouTubeリンクも学習/先週導入された「Audio Overview」(オーディオまとめ)の共有機能も
                  • OpenAI の Realtime API の概要|npaka

                    以下の記事が面白かったので、簡単にまとめました。 ・Introducing the Realtime API 1. Realtime API本日 (2024年10月1日)、OpenAIから「Realtime API」が発表されました。これにより、すべての有料開発者がアプリで低遅延のマルチモーダルエクスペリエンスを構築できるようになりました。ChatGPTの「Advanced Voice Mode」と同様に、6つのプリセット音声を使用して自然な speech-to-speech の会話をサポートします。 さらに、「Chat Completions API」にオーディオ入出力が発表されました。これは、「Realtime API」の低レイテンシの利点を必要としないユースケースをサポートします。開発者は任意のテキスト・オーディオを「GPT-4o」に渡し、テキスト・オーディオ・両方を選択して応答させ

                      OpenAI の Realtime API の概要|npaka
                    • NotebookLM adds audio and YouTube support, plus easier sharing of Audio Overviews

                        NotebookLM adds audio and YouTube support, plus easier sharing of Audio Overviews
                      • GoogleのAIノート「NotebookLM」さらに便利に、YouTubeと音声ファイルに対応

                        米Googleは9月26日(現地時間)、試験提供中のAIノートブック「NotebookLM」のアップデートを発表した。ソース(情報源)として、Googleドキュメント、Googleスライド、PDF、テキスト、Web URLに加えて、YouTubeのURLとオーディオ・ファイル(.mp3、.wav、. m4aなど)が新たにサポートされ、学習ガイドを生成する機能が追加された。 NotebookLMは、AIを活用して情報整理を効率化するツールである。クラウド上のデジタルノートブックに、資料、データ、メモなどをアップロードすると、その内容を解析したAIを利用できるようになる。たとえば、研究者が論文やレポートをアップロードし、重要な情報を抽出してまとめてもらったり、学生がテキストブックや講義資料をアップロードして試験対策に利用できる。ビジネスパーソンの利用も増加しており、情報整理の効率化、知識の共有

                          GoogleのAIノート「NotebookLM」さらに便利に、YouTubeと音声ファイルに対応
                        • NotebookLM’s automatically generated podcasts are surprisingly effective

                          NotebookLM’s automatically generated podcasts are surprisingly effective 29th September 2024 Audio Overview is a fun new feature of Google’s NotebookLM which is getting a lot of attention right now. It generates a one-off custom podcast against content you provide, where two AI hosts start up a “deep dive” discussion about the collected content. These last around ten minutes and are very podcast,

                            NotebookLM’s automatically generated podcasts are surprisingly effective
                          • 電話自動応答システムのQAのための自動応答システムを作った話

                            はじめに こんにちは。電話AI SaaS IVRyのAIエンジニアの町田です。 IVRyは従来のプッシュ型の自動応答システムに留まらず、LLMを積極的に活用したAI音声対話システムを開発しています。2023年初頭にAI対話システムの開発を開始してから1年半、多くの企業に実際に導入され、ほぼ毎週新機能や改善のリリースを行うまでに成長しました。 しかし、実際の音声対話をベースとしたAI電話アプリケーションの開発は、従来のWebアプリケーション開発とは異なる独自の課題を抱えています。毎週の新機能や改修を安定的にリリースすることは、決して容易なタスクではありません。 本記事では、高速かつ安全なリリースを実現するためのQAの工夫についてご紹介します。 QAの重要性 プロダクト開発において、品質保証(QA)プロセスは極めて重要な役割を果たします。特に、高速なリリースサイクルを目指すソフトウェア開発にお

                              電話自動応答システムのQAのための自動応答システムを作った話
                            • Amazon Connectから呼び出すAmazon Lexのみで、ノーコードで留守番電話機能を実装してみた | DevelopersIO

                              前提条件 Connectインスタンス 音声録音用のS3バケットを作成済み 文字起こし出力用のCloudWatch Logsグループを作成済み Lexボット作成 新しいインテントを作成します。 インテント名を適切に設定します。 サンプル発話では、以下の文言でインテントがトリガーされるよう設定しました。 スロットでは、スロットタイプをAMAON.FreeFormInputとし、以下の通りプロンプトを設定しました。 お問い合わせ内容をお伝え下さい。無音の状態が一定時間ある場合、録音が切れますので、ご了承ください。 その他の設定はデフォルトのまま非アクティブにします。 ログ設定を行います。 音声録音をS3バケットに保存するよう設定します。 文字起こし内容をCloudWatch Logsグループに出力するよう設定します。 これらの設定により、後で録音内容や文字起こし結果を確認することができます。 全

                                Amazon Connectから呼び出すAmazon Lexのみで、ノーコードで留守番電話機能を実装してみた | DevelopersIO
                              1