並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 2148件

新着順 人気順

音声認識の検索結果81 - 120 件 / 2148件

  • JRA、スマホアプリにOracle Cloud採用 100万人の利用を想定した認証基盤で

    日本中央競馬会(JRA)の公式スマートフォンアプリ「JRAアプリ」が、認証基盤にOracle Cloudのサービスを採用した。IDaaS「OCI Identity and Access Management」を活用し、100万人規模の利用を想定した大規模認証基盤を構築したという。日本オラクルが1月18日に発表した。 JRAアプリは、出馬表が見られる機能やレースのライブ配信を視聴できる機能などを提供するアプリ。2023年末の時点で約70万人が利用しているという。システム開発に当たっては、日本オラクルやNECグループのNECネッツエスアイが協力した。 認証基盤の選定に当たっては、多要素認証機能の搭載可否やアクセス集中を想定したスケール性能、データ保存の地理的な条件などが要件だった。一連の要件を満たした上で、政府のクラウドサービス登録制度「ISMAP」に登録されていることや、国内のリージョンがあ

      JRA、スマホアプリにOracle Cloud採用 100万人の利用を想定した認証基盤で
    • アマゾン、AI講座を無料で提供する「AI Ready」開始--奨学金制度も

      Amazonは生成型の人工知能(AI)関連のキャリアを構築したいと考えている人々に向け、無料の訓練コースと奨学金制度を提供する。同社は米国時間11月20日、従業員や学生などがAIや生成AIについて学べるよう支援するための取り組み「AI Ready」を発表した。 AI Readyは、以下のものから構成されている。 AIおよび生成型AIに関する8つの新たな無料コース 世界各地の5万人を超える高校生および大学生がUdacityの新たな生成型AIコースを受講できるようにする奨学金制度「AWS Generative AI Scholarship」 Code.orgとのコラボレーションによる、生成型AIに関する学生向けの訓練 無料コースについては、開発者および技術者の作業として需要が高い分野を網羅するコースとともに、業務リーダーや非技術系プロフェッショナル向けのコースが合わせて8つ、新たに開講される。

        アマゾン、AI講座を無料で提供する「AI Ready」開始--奨学金制度も
      • AWS Lambda でOpenAI の Whisper API を 認識精度の改善も含めて試してみた | DevelopersIO

        はじめに AWS LambdaでOpenAIのWhisper APIを試してみました。 OpenAIには音声データから文字起こししてくれる「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び出すWhisper APIが存在します。日本語ももちろん対応してます。 今回は、AWS LambdaがS3バケットに保存された音声データを元にWhisper APIで文字起こしして、精度を確認してみたいと思います。 OpenAIアカウントAPIキーの発行 OpenAIアカウント作成後、APIキーの発行をします。 APIキーの発行は、アカウントの View API keys をクリックします。 Create new secret key をクリックすると、API keyが発行されますので、コピーしておきます。 S3バケット 拡張子がwavの音声ファイルをS3バケットに保存しました

          AWS Lambda でOpenAI の Whisper API を 認識精度の改善も含めて試してみた | DevelopersIO
        • Meta Quest 3を買ったのでVRchatに手を出す話 - 圧倒的成長記録

          前回Meta Quest 3を買いました。 SNSではカワイイアバターで自撮り写真をアップロードしているVRchat民を見かけますが、せっかくVR環境を手に入れたので、VRchatでサイバー女の子になるまでの話をします。 これが…ワイ…? しかしここに至るまでのハードルが高く、自分で調べないといけないことがすごく多いです。VRchatよりもUnityでアバターいじくり回してる時間のほうが長くなってしまいました。 PCが壊れたら同じUnity環境を作れる気がしないのでメモとしてやったことの記録を残しておくことにします。先駆者が既にまとめているケースが多かったのでURLリンク集みたいになってます。 肉体を得る 自キャラの色を変える 着替える・メガネなどのアクセサリをつける 表情操作をする 自分をうっすら表示する 座る・寝る ボイスチェンジャーを入れる リアルタイム翻訳する VRChat中にPC

            Meta Quest 3を買ったのでVRchatに手を出す話 - 圧倒的成長記録
          • 音楽生成AI のリリース年表|npaka

            主な「音楽生成AI」「音声生成AI」「音声認識AI」のリリース年表をまとめました。 2020年2月22日 NEUTORINO歌声生成

              音楽生成AI のリリース年表|npaka
            • Cloudflare、CDNエッジで生成AIを実行できる「Workers AI」正式サービスに。世界150都市のデータセンターでGPU基盤を提供

              Cloudflare、CDNエッジで生成AIを実行できる「Workers AI」正式サービスに。世界150都市のデータセンターでGPU基盤を提供 Cloudflareは、同社のグローバルに展開するCDNのエッジで生成AIの推論処理を実行できる「Workers AI」の正式サービス化を発表しました。 Today, we’re excited to make a series of announcements, including Workers AI, Cloudflare’s inference platform becoming GA and support for fine-tuned models with LoRAs and one-click deploys from HuggingFace. Read all about it. https://t.co/phcPIaW24v

                Cloudflare、CDNエッジで生成AIを実行できる「Workers AI」正式サービスに。世界150都市のデータセンターでGPU基盤を提供
              • 電話自動応答システムのQAのための自動応答システムを作った話

                はじめに こんにちは。電話AI SaaS IVRyのAIエンジニアの町田です。 IVRyは従来のプッシュ型の自動応答システムに留まらず、LLMを積極的に活用したAI音声対話システムを開発しています。2023年初頭にAI対話システムの開発を開始してから1年半、多くの企業に実際に導入され、ほぼ毎週新機能や改善のリリースを行うまでに成長しました。 しかし、実際の音声対話をベースとしたAI電話アプリケーションの開発は、従来のWebアプリケーション開発とは異なる独自の課題を抱えています。毎週の新機能や改修を安定的にリリースすることは、決して容易なタスクではありません。 本記事では、高速かつ安全なリリースを実現するためのQAの工夫についてご紹介します。 QAの重要性 プロダクト開発において、品質保証(QA)プロセスは極めて重要な役割を果たします。特に、高速なリリースサイクルを目指すソフトウェア開発にお

                  電話自動応答システムのQAのための自動応答システムを作った話
                • なぜゲイリー・マーカスはAGI早期実現に否定的なのか|ララどり

                  Gary Marcus本題に入る前に、ゲイリー・マーカスについて簡単に振り返っておきたい。 Gary Fred Marcus(1970年生まれ54歳)は、認知科学と人工知能の第一人者である。23歳でマサチューセッツ工科大学から博士号を取得、現在はニューヨーク大学の心理学および神経科学の名誉教授であり、人間の言語発達や認知神経科学に関する研究で知られている。彼は作家としての顔も持ち、ベストセラー「Guitar Zero」(2012年)を含む5冊の著書を執筆している。「The Algebraic Mind」(2001年)では、現在のAIシステムが直面するハルシネーション問題を予見している。また、機械学習会社であるGeometric Intelligenceの創設者兼CEOとなり、同社は2016年にUberに買収された[1]。 以上がマーカス氏の略歴であるが、シンギュラリタリアンである私にとって

                    なぜゲイリー・マーカスはAGI早期実現に否定的なのか|ララどり
                  • Unity の WebGL ビルドでマイク入力を扱えるライブラリを作ってみた - 凹みTips

                    はじめに Unity には Microphone というクラスがあり、これを通じてマイクの情報や入力を取得できます。しかしながら Microphone は WebGL では利用することが出来ません。 docs.unity3d.com Unity では FMOD をオーディオ周りとして利用しているようで、基本的にスレッド上で動くためスレッドが(部分的にしか)利用できない WebGL とは相性がよくなく、結果的に Web Audio API をベースに自前で実装する、という選択をしたようです。その上で多くのオーディオ系 API は再実装されたものの、幾つか Web Audio API との相性が良くないものは利用不可、となっているようです。そして Microphone はごっそり「不対応」となったようですね。 私は uLipSync というリップシンクのためのライブラリを作っていまして、この中

                      Unity の WebGL ビルドでマイク入力を扱えるライブラリを作ってみた - 凹みTips
                    • プライムデー2024 個人的オススメ特集 - mogumogumo.jp

                      プライムデー ポイントアップキャンペーン 記事情報 Amazon製品編 イヤホン AIスピーカー タブレット ネットTV 電子書籍リーダー Apple製品編 AirPods Pro Apple Watch 家電編 サーキュレーター アイリスオーヤマ ルームエアコン 日立 冷蔵庫 家具編 レンジボード ソファー リビングテーブル スポーツ編 スライドボード REYS プロテイン 可変式ダンベル 食料編 キリン 本麒麟 カジューハイ 松屋 牛めし&カレー&焼肉 エール・エル ワッフル 他いろいろ編 ポータブル電源 コアラマットレス セール関係ない編 自動計量 /遠隔炊飯 炊飯器 ARグラス 番外編 Audible ギフト券 購入したもの編 まとめ 記事紹介 プライムデー 年に一度、全世界のAmazonで同時開催されるプライムデー! 久しぶりのブログ更新ですが当ブログ《mogumogumo.jp

                        プライムデー2024 個人的オススメ特集 - mogumogumo.jp
                      • GoogleのAI「Gemin 1.5 Pro」が180カ国で利用可能に。音声認識も対応

                          GoogleのAI「Gemin 1.5 Pro」が180カ国で利用可能に。音声認識も対応
                        • 小学5年生、生成AIを活用したボタン会話アプリを開発

                          小学5年生、生成AIを活用したボタン会話アプリを開発2023.11.14 17:007,202 福田ミホ ちゃんと使える生成AI。 公開から約1年経った生成AI、ChatGPT。その受け答えの賢さに多くの人が衝撃を受けて爆発的に広がりましたが、素のチャットとして日常的に使う人はそんなに多くはなく、ユーザーが減ってるなんて話もありました。 でも、これならたしかに使えそう!と希望が広がるアプリを見つけましたのでご紹介しますね。 場面緘黙当事者の小学5年生が開発それが、場面緘黙(かんもく)症(特定の状況で声を出して会話ができなくなる)の当事者である上田蒼大氏が開発したアプリ「Be Free」です。 上田氏は人前での会話全般ができないので、普段から筆談やジェスチャーで会話をしていましたが、時間がかかったり、細かいニュアンスが伝わりにくかったりするのが悩みでした。そんなとき、自分の言いたいことをパッ

                            小学5年生、生成AIを活用したボタン会話アプリを開発
                          • Amazon Transcribeが新しい音声基盤モデルによって精度向上を発表したので、日本語で確認してみた #AWSreInvent | DevelopersIO

                            Amazon Transcribeが新しい音声基盤モデルによって精度向上を発表したので、日本語で確認してみた #AWSreInvent はじめに AWS re:Invent 2023で、Amazon Transcribeは、次世代の数十億パラメータの音声基盤モデルを搭載した自動音声認識 (ASR)を発表しました。 搭載したことにより、バッチモードでTranscribe を使用する場合、APIエンドポイントや入力パラメータを変更することなく、100 以上の言語で精度向上を実感できるようです。 下記でも紹介されていました。 こちらのAWSのブログでも下記のことが記載されています。 Amazon Transcribe は音声基盤モデルを活用することで、ほとんどの言語で 20% から 50% の大幅な精度向上を実現します。困難でデータが不足している分野である電話音声では、精度が 30% ~ 70%

                              Amazon Transcribeが新しい音声基盤モデルによって精度向上を発表したので、日本語で確認してみた #AWSreInvent | DevelopersIO
                            • AIが誤変換する鹿児島弁、速記が頼り…鹿児島県議会事務局「AIにはまだ難しい」

                              【読売新聞】 かつて、国会や地方議会で欠かせない技術だった速記を廃止する動きが広がる中、鹿児島県議会は速記を維持し続け、県内では後継者の育成に取り組む。音声をAI(人工知能)で文字にする「音声認識システム」の導入を始める自治体も出て

                                AIが誤変換する鹿児島弁、速記が頼り…鹿児島県議会事務局「AIにはまだ難しい」
                              • 2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊 - Qiita

                                2023年版データ分析の100冊 が好評でしたので、2024年版を作りましたよ。 本記事のめあて IT系の技術者の方がデータ分析関連の仕事をするために役立つ本を紹介する(私が学び始めた時にあれば欣喜雀躍したであろう)記事として書いております 本記事作者の青木はバイオインフォマティクス(ゲノムデータのDB化中心・Perl・MySQL)からRで時系列分析→Pythonでデータ分析一般と業務をしてまいりました ですので研究者目的の本はありません。また、データ分析の基礎は主にRで学んだのですが、昨今の流行に合わせて理論のほかはPython本のみにしています 「本記事のR版のご要望があれば爆裂書きます!」と去年書いたのですが要望0 あはは、Rの本は今回撲滅しました! こういうリストを挙げる奴は大抵読んでいない、と過去にも言われたのですが、未読本は削除しました 最近好著連発なので読んでいる途中だけど挙

                                  2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊 - Qiita
                                • ミドル世代がChatGPTを使うことで拓けるチャンス 生成AIの活用でキャリアの付加価値が高まる理由

                                  ChatGPTなどの生成AIが個人のキャリアに大きな影響を与えると言われる今。本イベントは、そうした技術革新が進む中でどのように生き抜くべきか悩んでいるミドルキャリア世代に向けて開催されました。本記事では、『生成AI導入の教科書』の著者で、AI専門メディア AINOW編集長の小澤健祐氏が、今までと今のAIの違いや、これまでビジネスの場でAIが実用化されてこなかった理由について語ります。 AIの専門メディアの編集長・小澤氏が登壇 小澤健祐氏:ではさっそくスライドに入っていければと思います。まず最初に自己紹介をさせていただきます。おざけんという名前で活動させていただいているんですが、人間とAIが共存する社会を作ることをビジョンに、2017年からAIの専門メディアの編集長をしております。それがこの「AINOW」というメディアですね。 今は、その他もいろいろと取り組みをさせていただいております。例

                                    ミドル世代がChatGPTを使うことで拓けるチャンス 生成AIの活用でキャリアの付加価値が高まる理由
                                  • Google Cloud上でGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみた | DevelopersIO

                                    こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 この記事は、ブログリレー『Google CloudのAI/MLとかなんとか』の3本目の記事になります。 今回は、Vertex AIからGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみたいと思います。 Chirpについて 以下に詳しい説明があります。 Chirp: Universal speech model  |  Cloud Speech-to-Text V2 documentation  |  Google Cloud ChirpはGoogleの次世代音声認識モデルで、現在の音声モデルとは異なるアーキテクチャで学習させたモデルとなっているようです。 Google CloudではCloud Speech-to-Text V2における一つのモデルとして使用できます。その他

                                      Google Cloud上でGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみた | DevelopersIO
                                    • なぜ、プログラミングは役に立つのか

                                      なぜ、プログラミングは役に立つのか 2023.12.15 Updated by Atsushi SHIBATA on December 15, 2023, 10:55 am JST 今回紹介する書籍:『Pythonで学ぶ はじめてのプログラミング入門教室』柴田 淳(SBクリエイティブ、2023) 前回の微積分の話をたくさんの人に読んでいただけたことに気を良くして、というわけでもあるのですが、今回は連載の趣旨に合わせながら、最近私が書いたPythonの入門書について紹介します。プログラミングとは何か、どう学べば良いのかについても、私なりの考えを書いてみたいと思います。 ところでみなさんは、「2」という数を見て何を思い浮かべるでしょうか。「2月」「2番手」「2メートル」「2進法」など、数を見るとたちまち頭の中にいろいろなイメージが想起されるはずです。 「2という数」自体には、実はたいした意味は

                                        なぜ、プログラミングは役に立つのか
                                      • GPTのAPIとText2Speechを組み合わせてAIとの会話体験を実装してみる | DevelopersIO

                                        はじめに OpenAIのDevDayで発表されたText2SpeechのAPIを使ってみたいと思います。Text2Speechとは簡単にいうとテキストの読み上げ機能です。 日本語を読ませる場合、まだ少し英語訛りですが、なかなか人間っぽい発音を行います。 今回はこのText2SpeechのAPIを使って遊んでみたいと思います。 なにを作るのか? 先程記載したように、Text2Speechでは発話を行うことができます。 この特徴とGPTの会話ができる特性を組み合わせれば、会話っぽいことができるのではないかと思い実装してみました。 今回は試験的に実装を行うため、GPTには「動物博士」としてのロールを与えて動物の雑学を教えてもらいました。 完成形は以下のような動画になります。Text2Speechを利用しているため音声ONの状態での閲覧を推奨します。 発音が英語話者っぽくなっていることや漢字を稀に

                                          GPTのAPIとText2Speechを組み合わせてAIとの会話体験を実装してみる | DevelopersIO
                                        • 国産の音声認識エンジン「AmiVoice」はやっぱり日本語に強いのか?5つのサービスを比較してみた

                                          音声認識エンジンは声を認識して文字へと書き起こしてくれるツールで、いくつものIT企業からさまざまなエンジンが登場しています。しかし、音声認識エンジンを開発している企業の多くはアメリカなど英語圏の国を本拠地としており、音声認識エンジンについても英語の聞き取りメインでの開発です。日本企業が開発している国内シェアNo.1の音声認識エンジン「AmiVoice」は日本語の音声認識に強いエンジンとのことなので、本当に日本語の聞き取りの精度で勝っているのかをいくつかの音声認識エンジンと実際に比較して確かめてみました。 Speech to Text - AmiVoiceの音声認識API・SDK(アミボイス) https://acp.amivoice.com/ AmiVoice API-開発者向け音声認識エンジン(アミボイス) https://acp.amivoice.com/amivoice_api/ A

                                            国産の音声認識エンジン「AmiVoice」はやっぱり日本語に強いのか?5つのサービスを比較してみた
                                          • OpenAI Dev Day 2023 まとめ - 吉田の備忘録

                                            今朝、サンフランシスコで開催された OpenAI Dev Day 2023 での発表内容をまとめました。 発表された6つのテーマ 今回のアナウンスメントは主に6つのテーマで発表されていました。 コンテキストの長さの拡張(Context length)より多くのコントロール(More Control)より多くの知識(Better Knowledge)新しいモダリティ(New modalities)カスタマイズ性(Customization)より実行上限(Higher rate limits)+価格改定 GPT-4 Turboの導入 より高い能力を持ち、2023年4月までの世界の出来事に関する知識を有しています。128kのコンテキストウィンドウをサポートし、一度のプロンプトで300ページ以上のテキストに相当する情報を処理することができます。さらに、パフォーマンスが最適化されており、入力トークン

                                              OpenAI Dev Day 2023 まとめ - 吉田の備忘録
                                            • OpenAIが「ChatGPTのリアルタイム会話機能をアプリに組み込めるAPI」をリリース

                                              OpenAIが2024年10月1日に、すべての開発者がアプリ内で低遅延のマルチモーダルエクスペリエンスを構築できるようにする「Realtime API」のパブリックベータ版の提供を開始しました。これにより、さまざまなアプリでAIとのリアルタイムな会話が可能になります。 Introducing the Realtime API | OpenAI https://openai.com/index/introducing-the-realtime-api/ ????️ Introducing the Realtime API—build speech-to-speech experiences into your applications. Like ChatGPT’s Advanced Voice, but for your own app. Rolling out in beta for d

                                                OpenAIが「ChatGPTのリアルタイム会話機能をアプリに組み込めるAPI」をリリース
                                              • CHI2024を振り返って

                                                ヒューマンコンピュータインタラクション研究のトップカンファレンスであるACM CHI2024がハワイで開催された (5/11–5/16)。会議に出た感想を残しておく。 AIの席巻ある程度予想はしていたがAI、LLMと人間とのインタラクションをトピックにした発表が激増していた。CHIはパラレルセッションで、同時に20セッションぐらいが並行して発表が行われている。同時刻に開催される複数のセッションタイトルにAIやLLMが入っていて、もはやすべてを見るのが不可能な状態になっていた。 AIと銘打っていないセッションでも、要素技術として機械学習を使っているものは多いので、体感では半分以上の研究発表が何等かの意味でAIを使っている感じだった。少し前までは機械学習としってもSVMやCNN、LSTMぐらいでtransformersを使っていたら新しいね、ぐらいだったのだが、LLMが状況を変えていて「誰でも

                                                  CHI2024を振り返って
                                                • 【まるで魔法】GPT-4o(オムニ)が登場。ChatGPTアップデートまとめ|ChatGPT研究所

                                                  5月14日、日本時間深夜2時よりOpenAIのイベントが開催されました。 イベントの内容は、AIの新しい時代の幕開けを予感させる衝撃的な発表となりました。 注目すべきは、 最新モデル「GPT-4o」の登場 無料ユーザーへの解放 の二つです。 これにより、より多くのユーザーが高度なAIを手軽に利用できるようになります。 今回は、このOpenAIの最新アップデートの内容を詳しく解説していきます! 新しく発表されたGPT-4oとは?5月14日のイベントで発表された最新モデル「GPT-4o」(oはomniの略:【omniは「全ての」を意味する】)は、音声、視覚、テキストをリアルタイムで処理できる新しいAIモデルです。これにより、より自然な人間とAIの対話が可能になりました。 主な特徴マルチモーダル対応:テキスト、音声、画像の組み合わせを入力として受け取り、同様に多様な形式の出力を生成可能。 高速応

                                                    【まるで魔法】GPT-4o(オムニ)が登場。ChatGPTアップデートまとめ|ChatGPT研究所
                                                  • Appleの機械学習チームがAppleシリコンで機械学習モデルをトレーニング・デプロイするためのフレームワーク「MLX」をGitHubで公開

                                                    GoogleやMeta、Microsoftなどの大手テクノロジー企業がAI開発を積極的に行っている一方、AppleはAIについて保守的であり、AI開発競争に出遅れているという見方もされています。そんなAppleが2023年12月、自社製プロセッサのAppleシリコン用の機械学習フレームワーク「MLX」をソフトウェア開発プラットフォームのGitHubで公開しました。 GitHub - ml-explore/mlx: MLX: An array framework for Apple silicon https://github.com/ml-explore/mlx Apple launches MLX machine-learning framework for Apple Silicon | Computerworld https://www.computerworld.com/artic

                                                      Appleの機械学習チームがAppleシリコンで機械学習モデルをトレーニング・デプロイするためのフレームワーク「MLX」をGitHubで公開
                                                    • Google翻訳をリアルタイムで上手に使う方法

                                                      Google翻訳をリアルタイムで上手に使う方法2024.01.12 08:0033,557 David Nield・Gizmodo US [原文] ( mayumine ) Google翻訳アプリ、ダウンロードしてあるけど、最近使ってないなあ… そんな人がいたらそれはもったいない! Google翻訳、思っていた以上に進化していて、実用度が素晴らしいことになっています。 話している2人の間にスマートフォンがあれば、リアルタイムでGoogle翻訳が通訳してくれます。音声認識の精度と翻訳スピードはかなりのもので、もう通訳要らず。翻訳してほしい内容をを毎回テキストで入力する必要なんてすでにありません。 英語圏はもちろん、その他の言語の国も余裕で旅行できそうです。 リアルタイム翻訳を使う方法Image: Google Translateお手持ちのスマートフォンにGoogle翻訳アプリがあれば、それだ

                                                        Google翻訳をリアルタイムで上手に使う方法
                                                      • 「iOS 18」「iPadOS 18」「watchOS 11」「macOS Sequoia」のリリース日が2024年9月17日に決定

                                                        Appleの公式サイトが更新され、「iOS 18」「iPadOS 18」「watchOS 11」「macOS Sequoia」のリリース日が日本時間の2024年9月17日(火)に決定したことが明らかになりました。 iOS 18 - Apple(日本) https://www.apple.com/jp/ios/ios-18/ Appleは各種OSの公式ページを用意しており、搭載される新機能などを紹介しています。この公式ページが更新され、リリース日が2024年9月17日(火)に決定したことが明らかになりました。 各OSの主な特徴は以下の通り。 ◆iOS 18 iOS 18ではホーム画面のカスタム機能が強化され、アプリアイコンを好みの位置に配置したり色を変更したりできるようになります。 ゲームプレイ時に他のアプリの動作を制限してゲームのフレームレートを高く維持する「ゲームモード」も追加されます。

                                                          「iOS 18」「iPadOS 18」「watchOS 11」「macOS Sequoia」のリリース日が2024年9月17日に決定
                                                        • Amazonが70億円超の支払いを音声認識アシスタント「Alexa」による特許侵害で命じられる

                                                          Amazonのスマートスピーカーである「Echo」と、これに搭載されている音声認識アシスタントの「Alexa」が、4件の特許を侵害しているとして4670万ドル(約70億円)の支払いを命じられました。 Alexa just cost Amazon another $46.7 million | Ars Technica https://arstechnica.com/gadgets/2023/11/alexa-just-cost-amazon-another-46-7-million/ Nuance Communications傘下のVB Assets(旧VoiceBox Technologies)が、AmazonのEchoおよびAlexaが同社の保有する特許を侵害したとして、デラウェア州連邦裁判所で特許侵害訴訟を起こしました。訴訟の中で、VB Assetsは「インターネットに接続して女性の

                                                            Amazonが70億円超の支払いを音声認識アシスタント「Alexa」による特許侵害で命じられる
                                                          • AIとの対話を長期記録してLLMの応答をパーソナライズする「Mem0」、オープンソースLLMを商用モデル精度で使用する方法など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                            2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 OpenAIは7月18日、安くて軽量なマルチモーダル大規模言語モデル「GPT-4o mini」をリリースしました。テキストや画像に対応し、Gemini FlashやClaude Haiku、GPT-3.5 Turboより精度が高く高速、それでいて安価なのが特徴です。 DeepLは、言語翻訳ならびに文章校正の特化型大規模言語モデルを実装したことを発表しました。言語専門家の評価では、Google翻訳よりも1.3倍、ChatGPT-4よりも1.7倍、Microsoft翻訳よりも2.3倍、DeepLの翻訳出力が好ましいと回答したといいます。 さて、この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第56回)では、AIとユー

                                                              AIとの対話を長期記録してLLMの応答をパーソナライズする「Mem0」、オープンソースLLMを商用モデル精度で使用する方法など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                            • NVIDIAがデスクトップPC向けGPU「GeForce RTX 40 SUPER」を発表。ハイエンド〜ミドルハイGPUを強化

                                                              NVIDIAがデスクトップPC向けGPU「GeForce RTX 40 SUPER」を発表。ハイエンド〜ミドルハイGPUを強化 ライター:米田 聡 米国時間2024年1月8日,NVIDIAは,米国・ラスベガスで行われる大規模展示会「CES 2024」に合わせて特別講演を行った。その中で,デスクトップPC向け新型GPU「GeForce RTX 4080 SUPER」「GeForce RTX 4070 Ti SUPER」「GeForce RTX 4070 SUPER」の3製品を発表した。 本稿では,3製品の概要に加えて,ゲーマーに関連した発表をざっくりとまとめてみたい。 「SUPER」の登場でGeForce RTX 40シリーズは合計7モデルへ 今回,発表となったGeForce RTX 40 SUPERシリーズは,GeForce RTX 40シリーズGPUのバリーションとして追加される3製品に

                                                                NVIDIAがデスクトップPC向けGPU「GeForce RTX 40 SUPER」を発表。ハイエンド〜ミドルハイGPUを強化
                                                              • LLM音声対話システムの応答を高速化してみた | CyberAgent Developers Blog

                                                                はじめまして、CyberAgent AI Lab Intaractive Agentチームの技術研究員の大平といいます。 この記事は CyberAgent Developers Advent Calendar 2023 1日目の記事です。 ChatGPTの登場以降、自然なチャット対話はAPI呼び出しだけで簡単に実装できるようになりました。 更に人間のようなインタラクションを実現しようとすれば、音声対話に発展させたいと思う方も多いかと思われます。 しかし実際にLLMを使って音声対話システムを構築してみると、そのレスポンスの遅さに不満を感じることになります。 この記事ではよくあるシンプルなLLMを用いた音声対話に対していくつかの工夫を施し、その応答速度をできるだけ早めてみようという試みになります。 よくある構成として、以下を用います。 音声認識 Google STT LLM ChatGPT 3

                                                                  LLM音声対話システムの応答を高速化してみた | CyberAgent Developers Blog
                                                                • 安否確認 : 素晴らしい日々〜Splendid days

                                                                  素晴らしい日々〜Splendid days 感動したこと…疑問に思うこと… 何氣ない日常を過ごすのも、感謝に満ちた日々を過ごすのも自分次第… そんな日々の思いを綴ります。 今日もこのブログに訪問して下さりありがとうございます!😊 タイトルを見る限り、 やや心配になるもかもしれないけれど、 最初に言っておくと、 くだらない話です😅 なので、 肩の力を抜いて読んでいただければよろしいかと… 昨夜、福島県で震度5弱の地震があった。 この地震で被害に遭われた方々には、 お見舞い申し上げます。 さて、 その余波で、 僕の住む地域も揺れ、 確認したら、 震度としては2だった。 その時間、 すでに僕は就寝中だったが、 体感的にはわりと大きく揺れていると感じ 目が覚めた。 その後すぐにまた寝てしまったけど…😅 でもって今朝、 別室で寝ていた妻が、 開口一番、 「夜に地震あったけど起きた?」 というの

                                                                    安否確認 : 素晴らしい日々〜Splendid days
                                                                  • アップル、年内にAI関連の大発表があるかも

                                                                    アップル、年内にAI関連の大発表があるかも2024.02.06 14:0014,195 Dua Rashid - Gizmodo US [原文] ( 湯木進悟 ) さてどうくるか? このところApple(アップル)といえば、空間コンピュータ「Apple Vision Pro」発売の話題でもちきりです。ですが、もうその次を見据えて着々と進んでいるらしいですよ。 AI関連の新発表を予告AppleのTim Cook(ティム・クック)CEOは、決算発表の場で「生成AIならびにAIはビッグチャンスだ」と発言したそうです。いまSamsung(サムスン)からはAIスマホと評されるGalaxy S24シリーズが発売され、スマホとAIのコンビネーションは大注目。次のiPhoneシリーズでは、やはりこの波に乗ってくるのでしょうか? 例年6月に開かれるWWDCにおいて、なにか今年はAI関連のビッグな発表をしてく

                                                                      アップル、年内にAI関連の大発表があるかも
                                                                    • AI英会話アプリ「スピーク」の野望…すでに有料会員10万超、創業者はハーバード×スタンフォードの頭脳

                                                                      小林香織 [フリーライター/北欧イノベーション研究家] Dec. 06, 2023, 08:00 AM 深掘り 47,021 AI英会話アプリ「スピーク(Speak)」。OpenAIから出資を受けている企業の1つだ。 撮影:Business Insider Japan ChatGPTをはじめとする生成AIの登場によって、語学学習にも変化の波が起きている。 2016年に米国シリコンバレーで創業したSpeakeasy Labs, Inc(以下、スピーク)は、ChatGPTを開発したOpenAIから出資を受け、同社のAI技術も活用したAI英会話アプリ「スピーク(Speak)」で支持を得ている。 同社の強みは、自社開発の自動音声認識技術と生成AI技術をかけ合わせ、「会話」に特化したレッスンを提供していること。教科書的な言い回しではなく、シリコンバレーのビジネスシーンで利用される「ネイティブの表現」

                                                                        AI英会話アプリ「スピーク」の野望…すでに有料会員10万超、創業者はハーバード×スタンフォードの頭脳
                                                                      • Makuake|ChatGPT連携AI要約作成+11in1オーディオドック|HiDock H1|Makuake(マクアケ)

                                                                        《録音⇨57ヶ国対応文字起こし⇨AI要約》+《優秀な11in1ドッキングステーション》が1台に スマホやPCと接続しイヤホン通話にも対応!双方向ノイズキャンセリングで通話も録音もクリア! 話者識別色分け機能&録音中のリアルタイムなハイライトマーカーで生産性爆上げ! 海外の先行販売で約1億円*を記録した、ChatGPT連携AI要約ボイスレコーダー兼11 in 1オーディオドッキングステーションの「HiDock H1(ハイドック エイチワン)」がMakuakeにて日本初上陸! *2024年2月22日時点 ワンタッチで録音を開始し、AIによる全自動文字起こし&要約が全部丸投げで簡単に完成!月額サブスク料金無しで本体だけで使えます! 半径10m以内シームレスな接続。デスクを離れてもイヤホン操作だけで録音やミュートができ、自由自在のワークスタイルを実現します! 群を抜いた実用的な機能性!類似品にある

                                                                          Makuake|ChatGPT連携AI要約作成+11in1オーディオドック|HiDock H1|Makuake(マクアケ)
                                                                        • 「おしゃべり源氏物語」、大阪工業大が開発 声とチャットで質問に回答 和歌も読み上げ

                                                                          大阪工業大学は4月5日、複数のAI関連技術を活用した「おしゃべり源氏物語 -生成AIで学ぶ『源氏物語』-」を開発したと発表した。マイクに向かって源氏物語について質問すると、生成AIで解説を作成し、音声とチャットで回答する。 開発したのは、同大学情報科学部 ネットワークデザイン学科の矢野浩二朗教授。OpenAI APIを用いた自動採点付き学習アプリを開発し、本格的に授業で実践するなど、生成AIを活用したさまざまな挑戦を行っているという。 おしゃべり源氏物語には、音声から文字への変換にAI音声認識のAmiVoice、文章生成にOpenAIのAPIを利用するなど、6種類のAI関連技術を活用している。 和歌の発音に関するデータを追加することで、和歌独特のリズムでの読み上げを可能にした他、古典が苦手なOpenAIのために和歌現代語訳をデータベース化するなど、開発には多くの工夫が必要だったという。 精

                                                                            「おしゃべり源氏物語」、大阪工業大が開発 声とチャットで質問に回答 和歌も読み上げ
                                                                          • ストレスフリーで字幕が見られる?「ぴったり字幕」開発の舞台裏|NHK広報局

                                                                            「あれ、なんか字幕が読みにくいな…」 ガヤガヤと人でにぎわう昼どきの社員食堂。 日替わり定食を食べながらぼんやりとニュースを眺めていたある日、ふと違和感を覚えました。 生放送のニュース番組。すらすらとしゃべるアナウンサーの声に、少し遅れて表示される字幕…。 みなさんはふだん、テレビを字幕付きで見たことはありますか? テレビ番組表に「字」と書いてあったり、番組の開始直後に「字幕放送」と告知テロップが出たりするので、ご存じの方もいるでしょうか。 ドラマなどの収録番組は、あらかじめ制作過程で字幕を作ることができるので、番組内容と字幕の表示タイミングがきちんと合っています。 一方、ニュースなどの生放送番組(以下、生番組)の場合、アナウンサーや出演者が話すことばが事前に決まっていないため、実際に話されたことばを人が文字起こしして字幕を制作します。 そのため、どうしても数秒から数十秒の作業時間がかかっ

                                                                              ストレスフリーで字幕が見られる?「ぴったり字幕」開発の舞台裏|NHK広報局
                                                                            • Scratchではじめる機械学習 第2版

                                                                              本書は、Scratchを使っている小学校高学年くらいの年齢から読める、機械学習入門です。Scratchの拡張機能を使い、画像認識や音声認識、姿勢検出、文章生成を利用したプログラムを作りながら、機械学習の仕組みを楽しく学ぶことができます。Pythonなどのテキストプログラミング言語や、難しい数学の知識は必要ありません。作りながら学ぶことで、実際の世の中で機械学習がどのように生かされているかを想像し、自分でも機械学習を使った仕組みを考えられる力を養います。プログラミングの楽しさを覚えはじめた子どもたちの次のステップとしてもぴったりの一冊です。 はじめに この本について 序章 10分で体験できる機械学習 ImageClassifier2Scratchで画像認識を体験してみよう 1章 [画像認識編]ジャンケンゲームを作ろう 1-1 ML2Scratchの準備をする 1-2 ML2Scratchで画

                                                                                Scratchではじめる機械学習 第2版
                                                                              • iOS/macOSオンデバイスで爆速で動作する音声認識モデルWhisperKit - Sansan Tech Blog

                                                                                iOSエンジニアの堤です。先日3月28日に開催された弊社主催のLTイベントで、「WhisperKitがだいぶ良いので紹介する」というタイトルで発表しました。 スライドはこちら: www.docswell.com 本記事は、同発表をベースとしつつ、(LTでは時間が足りないので)発表ではカットした内容を盛り込んで記事として再構成したものになります。 WhisperKitとは iOS/macOSオンデバイスで動く音声認識のすごいやつ デモ:標準の音声認識フレームワークSpeechとの比較 Speech WhisperKit なぜ速いのか - WhisperKitの系譜 OpenAI Whisper whisper.cpp Core ML とは whisper.cpp から WhisperKitへ argmax社とApple モデルサイズとメモリ消費量 各モデルのファイルサイズ一覧 メモリ使用量

                                                                                  iOS/macOSオンデバイスで爆速で動作する音声認識モデルWhisperKit - Sansan Tech Blog
                                                                                • Faster WhisperとAWS SageMakerを活用してGPUでの高速文字起こしエンドポイントを構築する

                                                                                  概要 最近の音声認識技術の進歩はすごいですね! 特にOpenAIの最新モデルであるWhisper large-v3は、日本語の音声データでもかなりの高精度で文字起こしを行うことができ、APIも公開されています。 ただし簡単に使用でき汎用性も高い一方で、大量に使用する場合の高コストやプライバシーの懸念もあるため、ローカル環境で効率よく高精度な文字起こしを実現するモデルが多数開発されています。 今回は、その中でもGPUを使用した高速推論が可能な「Faster Whisper」を用いて、AWS SageMakerでカスタム文字起こしエンドポイントを構築してみたので、手順を解説していきたいと思います。 実装コードは以下のリポジトリにあります。 順番通りJupyterNotebookを実行すると問題なく動作するはずです。 Faster Whisperとは Faster WhisperはOpenAIの

                                                                                    Faster WhisperとAWS SageMakerを活用してGPUでの高速文字起こしエンドポイントを構築する