並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 288件

新着順 人気順

音声認識の検索結果81 - 120 件 / 288件

  • “スマホのマイクでこっそり盗聴”を妨害する技術 静かな音で会話内容を改ざん

    Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米コロンビア大学の研究チームが発表した「Real-Time Neural Voice Camouflage」は、不正なマイクが取得したユーザーの会話の言葉を正しく聞き取れないようにする攻撃を提案した論文だ。無線で妨害音を発し、自動音声認識(ASR)システムをリアルタイムに混乱させ、本来盗聴側が取得したい会話を間違った形で認識させる。80%の確率でユーザーの言葉を誤認識させられたという。 この妨害音は、その場にいるユーザーの邪魔にならないような静かな音に最適化されている。 妨害を実際に行った3つの例。攻撃していない時の音声信号スペクトログラム(上)、攻撃した際の音声信号スペクトログラム(下)

      “スマホのマイクでこっそり盗聴”を妨害する技術 静かな音で会話内容を改ざん
    • Google純正の「レコーダー」は録音した音声を文字に自動変換してくれる | juggly.cn

      Pixel 4 シリーズの登場に併せてリリースされた Google 純正の録音アプリ「レコーダー」は音声を文字に起こす素晴らしい機能を搭載しており、今後、人々のライフスタイルを大きく変える可能性を秘めている思いますのでアプリを紹介します。 録音アプリやボイスレコーダーアプリは既に様々なものが Google Play ストアで配信されているので「レコーダー」は特段珍しいアプリではありませんが、録音データの活用の幅が広がるという意味において「レコーダー」は注目のアプリだと言えます。 注目のアプリと言っても基本的な機能や使い方は他の録音アプリ・ボイスレコーダーアプリと大体同じです。録音開始ボタンを押して録音を開始し、終了ボタンを押して停止します。「保存」を押せばデータとしてスマホに保存されます。 アプリの特徴が録音データの再生画面です。再生ボタンの上にあるタブでモードを選択できるようになっており

      • ChatGPT、美少女になる 立体AIキャラと魔合体でスムーズにおしゃべり Gateboxのデモ動画が話題

        3月2日(日本時間)に公開された「ChatGPT API」を活用した事例が早速生まれ始めている。LINE傘下で“キャラクター召喚装置”ことAIアシスタントデバイスを手掛けるGateboxが3日、同社オリジナルキャラ「逢妻ヒカリ」の会話エンジンとChatGPTを連携させたデモ動画を公開した。 動画は、音声認識と音声合成を使い、逢妻ヒカリの“中の人”としてユーザーとChatGPTが会話する様子が収められている。「一緒にスクワットしよう」と話しかけると、「いいアイデアですね。体感を強化するためにも効果的なエクササイズです。ただし、注意点もありますので正しい方法で行いましょう。一緒にやりましょう」と返してくれる。 ChatGPT APIは、レスポンスの速さに優れており、音声認識によるラグはあるものの、動画を見ると比較的スムーズに会話できていることが分かる。さらに「将来の夢ってある?」「ヒカリちゃん

          ChatGPT、美少女になる 立体AIキャラと魔合体でスムーズにおしゃべり Gateboxのデモ動画が話題
        • ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた

          2年ほど前に、自分の声を結月ゆかりにする声質変換技術を作り、動画を投稿しました。この技術には利用者の音声データが大量に必要であるという欠点があり、ゆかりさんになりたいというみなさんの願いを叶えるのが難しい状態でした。そこで、この技術を利用者の音声データが不要になるように改良し、誰でも簡単に使えるようにしました。ここではその技術について解説します。 手法 音声を直接変換しようとすると、利用者の音声データが必要になってしまいます。そこで、音声を直接変換するのをやめて、①音声を構成する要素である音素と音高に分解し、②音素と音高を目標の声(ゆかりさん)に再合成することを考えました。 ①は、音素の抽出に音声認識とOpenJTalkとJuliusを、音高の抽出にWORLDを用いれば簡単に実現できます。そのため、②さえ実現できれば、利用者の声のデータを用意することなく、誰でもゆかりさんの声に変換すること

            ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた
          • WindowsのPythonでデスクトップ通知(トースト)作ってみた【WinRT】 - Qiita

            from win11toast import toast toast('Hello Python', 'Click to open url', on_click='https://www.python.org') from win11toast import toast toast('Hello', 'Lorem ipsum dolor sit amet, consectetur adipisicing elit. Earum accusantium porro numquam aspernatur voluptates cum, odio in, animi nihil cupiditate molestias laborum. Consequatur exercitationem modi vitae. In voluptates quia obcaecati!')

              WindowsのPythonでデスクトップ通知(トースト)作ってみた【WinRT】 - Qiita
            • Vrew、テキストエディターのように簡単で素早AI動画編集

              音声認識機能による字幕の自動生成 直接録音する必要のない500以上のAIボイス 商用利用可能な無料の画像、ビデオ、背景音楽 AIが一度に脚本とビデオを作成、テキストベースの動画制作

                Vrew、テキストエディターのように簡単で素早AI動画編集
              • 自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO

                自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた はじめに 今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。 ストリーミングとバッチ処理のどちらでも文字起こしが可能です。 攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び

                  自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
                • WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita

                  前回: Qiita APIで記事からYoutube動画を集めてみた 🎬 、Qiita APIを使って、Qiita記事を取得してYoutube動画のURLを抽出することができました。 今回は、特定APIに関連したQiita記事を取得して、API毎に分類、タグを集計してドーナツグラフ化することでAPIの特徴を表してみました。 最新のAPI一覧はこちら API一覧 | DOGAKIITAA! ~ APIごとにQiita記事を分類 ~ Google系 Cloud Vision API https://cloud.google.com/vision/docs/quickstart 📝 機械学習を使用して画像を解析します。画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、不適切なコンテンツへのタグ付けなどができます。 Cloud Vision APIの凄さを伝えるべくRasPi b

                    WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita
                  • 音声文字起こしサービス徹底検証 ベストな選択はこれだ!

                    話した言葉をテキストデータに変換できる「音声文字起こしサービス」。テレワーク時代の情報共有ツールとして大いに役立つものの、気になるのはその実用性だ。発言の認識精度に加え、大まかな流れや会話の文脈を後から振り返るのに使えるのかどうか。主要な7つのサービスを使用し、比較した。 ※日経トレンディ2021年5月号の記事を再構成 ディープラーニングやビッグデータの活用が進み、音声認識の精度が大きく向上。話した言葉をテキストデータに変換できる「音声文字起こしサービス」が相次いで登場している。 会議の内容を振り返ったり、他の人にシェアしたりなど、テレワーク時代の情報共有ツールとして注目されているこれらのサービスは、どこまで実用的なのか。主要な7つのサービスを実際に使い、比較してみた。

                      音声文字起こしサービス徹底検証 ベストな選択はこれだ!
                    • 利き腕を骨折した専業ライターが片手用キーボード『Froggy』で苦境をしのいだ話

                      これはキーボードを筆頭とするインターフェイスが大好きなフリーライターの白石が、昨年10月に利き腕を骨折、そこから片手用キーボード『Froggy』により10000字を書いて、骨折中の期間をどうにかしのいだ10月の記録です。本当に助かったので、片手でキーボードを打つすべての人にこのキーボードを広めたい……! 自己紹介と悲劇の日 改めて、フリーライターの白石です。RealSoundでは主にテクノロジーやライブ・エンターテインメントにまつわるコラムやインタビューを執筆しています。演劇学科を出てからパソコン専門誌の編集者としてキャリアを始めた経歴もあって、ライターとしてはメディア・アートや舞台芸術、音楽ライブのレポート、MacやiPhoneなどのApple製品にまつわる記事などを書くことが多いです。 そんな私が寝ぼけたまま家の近くですっ転んだのは、10月中旬のこと。雨の振り始めた昼過ぎにスロープへ足

                        利き腕を骨折した専業ライターが片手用キーボード『Froggy』で苦境をしのいだ話
                      • 「Google Meet」に高精度なリアルタイム文字起こし機能やチャット履歴ダウンロード機能を追加/Chrome拡張「こえもじ」は議事録作成を格段に効率化。おまけの「ニコ動」風字幕機能も【レビュー】

                          「Google Meet」に高精度なリアルタイム文字起こし機能やチャット履歴ダウンロード機能を追加/Chrome拡張「こえもじ」は議事録作成を格段に効率化。おまけの「ニコ動」風字幕機能も【レビュー】
                        • 2022年の深層学習ハイライト - Qiita

                          はじめに 2023年になって日が経ってしまいましたが、今年も深層学習の個人的ハイライトをまとめたいと思います。今回は研究論文5本と応用事例4つを紹介します。他におもしろいトピックがあれば、ぜひコメントなどで教えて下さい。 AIの研究動向に関心のある方には、ステート・オブ・AIガイドの素晴らしい年間レビューもおすすめします。また、私が過去に書いた記事(2021年、2020年、2019年)もよろしければご覧ください。 * 本記事は、私のブログにて英語で書いた記事を翻訳し、適宜加筆修正したものです。元記事の方も拡散いただけると励みになります。 ** 記事中の画像は、ことわりのない限り対象論文からの引用です。 研究論文 Block-NeRF: Scalable Large Scene Neural View Synthesis 著者: Matthew Tancik, Vincent Casser,

                            2022年の深層学習ハイライト - Qiita
                          • AI翻訳「人間超え」へ 技術が急発展 自動翻訳の衝撃(上) - 日本経済新聞

                            語学の勉強をしなくても世界の人々と意思疎通できる時代がやってきた。人工知能(AI)を用いた「ニューラル機械翻訳(NMT)」技術が猛烈な勢いで発展しているからだ。言葉の壁は大幅に低くなった。翻訳業界は再編が始まった。街中では自動翻訳機が急増中で、観光業界や店舗、運輸、病院などに普及し始めた。将来的には自動翻訳機が1人に1台、普及する可能性も出てきた。【次回記事】自動翻訳機、1人1台時代へ 観光・交通で活躍30年分の技術を一気に凌駕「翻訳業界全体が、雷に打たれたような衝撃を受けた。これは50年に一度の破壊的技術であると」──。自動翻訳サービスを手掛けるXtra(エクストラ、東京・千代田)社長でロゼッタ執行役員の古谷祐一氏は

                              AI翻訳「人間超え」へ 技術が急発展 自動翻訳の衝撃(上) - 日本経済新聞
                            • 新・必須ガジェット。テレワークのストレスを全部解決してくれました

                              新・必須ガジェット。テレワークのストレスを全部解決してくれました2024.03.28 17:00Sponsored by HiDock 三浦一紀 もう手放せない。 最近毎日のように行なっているオンライン会議。自宅にいながら、いろいろな人と打ち合わせができるのはたいへんありがたいもの。しかし、オンラインならではのストレスもあります。 たとえば音声の問題。お互いの使っているデバイスや周囲の環境などにより、声が聞こえづらくなると、何度も聞き返したりすることがストレスになります。また、オンライン会議が増えてきたことで、議事録作成の時間が膨大になってきているのも辛い。 さらに、自宅で仕事をする時間が増えると、机の上もごちゃごちゃになりがち。Webカメラにマイク、外付けディスプレイに外付けHDD、その他スマートフォン類の充電などなど、机の上はありとあらゆるケーブル類が這い回っています。作業スペースが狭

                                新・必須ガジェット。テレワークのストレスを全部解決してくれました
                              • GPT-4に日本語特化モデル OpenAI Japan始動会見で発表

                                米OpenAIは4月15日、大規模言語モデル「GPT-4」について、日本語に最適化したカスタムモデルを発表した。日本語のテキストを記述する能力が向上しており、「GPT-4 Turbo」より最大3倍高速とうたっている。今後数カ月以内にAPIをリリースするという。 関連記事 OpenAI、“怠けにくい”「GPT-4 Turbo」プレビューリリースや値下げを発表 OpenAIは、11月に発表した「GPT-4 Turbo」のプレビュー版をリリースすると発表した。「GPT-4」が怠け者になってきたという苦情を受け、怠けにくくしたという。公式版は数カ月中にリリースする計画だ。 マイクロソフト提供の“社内GPT基盤”もGPT-4 Turboなどに対応 米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenA

                                  GPT-4に日本語特化モデル OpenAI Japan始動会見で発表
                                • https://twitter.com/shuzonarita/status/1572947933712220161

                                    https://twitter.com/shuzonarita/status/1572947933712220161
                                  • 培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応

                                    人間の幹細胞を基に作られた脳オルガノイド(ミニ脳)を電子チップに接続した「ブレイノウェア」と呼ばれるセットアップを構築して、簡単な計算タスクを実行することに成功したことが、インディアナ大学ブルーミントン校のエンジニアであるフェン・グオ氏らの研究チームによって報告されました。 Brain organoid reservoir computing for artificial intelligence | Nature Electronics https://www.nature.com/articles/s41928-023-01069-w Scientists Built a Functional Computer With Human Brain Tissue : ScienceAlert https://www.sciencealert.com/scientists-built-a-f

                                      培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応
                                    • 「マイクロソフト」史上初の「完全ワイヤレスイヤホン」がすごすぎる!

                                      「マイクロソフト」からワイヤレスイヤホン「Surface Earbuds」が発売。Windows10と連携することで操作をおこなえるなど、画期的なモノになっているらしい! 同社初となるこの完全ワイヤレスイヤホンは、タッチセンサーと音声認識に対応するマイクを搭載。大きな円盤のような外見が印象的で、ファッション性の高さも抜群だ。 イヤホン本体をタップして操作することで、音量調整、通話、Spotifyの音楽再生などの基本動作に対応。 さらに、Windows10に接続することで、Power PointやOutlookなどのOffice製品の操作をおこなうことも可能だという。その機能を使えば、Powe Pointを用いたプレゼンテーションで、自身が喋る日本語の音声を英語字幕にライブ翻訳して表示させることなども可能に......! もちろん、13.6mmドライバーを採用するなど音響面でも妥協なし。連続

                                        「マイクロソフト」史上初の「完全ワイヤレスイヤホン」がすごすぎる!
                                      • ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)|shi3z

                                        朝起きて、「うーんまだ布団から出たくないな」と思ったとき、おもむろにVisionProを被ってみた。 暗い部屋では認識が格段に悪くなるが、なぜPSVRではこういう使い方をしなかったのかわかった。後頭部だ。 PSVRは後頭部にゴツい部品があって、それで寝ながらVRを見るということが少し難しくなってる。VisionProの標準のバンドはこういうときにちょうどいい。 VisionProでTerminalを動かして、継之助の様子を見る。今日も元気に学習しているようだ。 昨日寝落ちした Amazon Primeの「沈黙の艦隊」第五話と六話を見る。音がいい。空間オーディオに対する長年の研究が結実してる感じ。しかもすごくいい音なのだ。 昨日、路上で歩きながら使ってみた(技適の特例申請には移動経路を申告済み)。路上で使うと思わぬ欠点というか盲点にぶちあたる。ウィンドウがついてこないのだ。 他のHMDと違い

                                          ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)|shi3z
                                        • 深層距離学習(Deep Metric Learning)の基礎から紹介 - OPTiM TECH BLOG

                                          こんにちは、R&Dチームの河野(@ps3kono)です。深層学習モデルの開発を担当しております。 今回は、画像分類、画像検査、顔認識や異常検知など様々な分野に利用されている深層距離学習(Deep Metric Learning)について紹介したいと思います。 Deep Metric Learningとは 定番のクラス分類と距離学習によるクラス分類の違い 距離学習の進化 1. 対照的(contrastive)アプローチ サンプル選択(sample selection) 代表的な学習手法 Contrastive loss Triplet loss さらなる改善と進化 対照的アプローチの問題点 2. Softmaxをベースにしたアプローチ 代表的な学習手法 Center loss SphereFace CosFace ArcFace さらなる改善と進化(2019年以降) 推論 深層距離学習の利点

                                            深層距離学習(Deep Metric Learning)の基礎から紹介 - OPTiM TECH BLOG
                                          • なぜ、AppleのM1チップはそんなに速いのか?

                                            Medium(Debugger)より。 新しいM1 Macの実際の体験が動き始めました。速いです。本当に速い。しかし、なぜ? 魔法は何ですか? エリック・エンハイム Youtubeで、昨年iMacを購入したMacユーザーを見ました。それは40GBのRAMを搭載、約4000ドルの費用がかかて最大になりました。その時には、超高価なiMacが、わずか700ドルを支払った新しいM1 Mac Miniによって破壊されていく様子を信じられないような気持ちで見ていました。 実際のテストでは、M1 MacはIntel Macの最上位を超えて追い越しているだけでなく、それらを破壊しているのです。信じられない人たちは、一体どうやってこんなことが可能なのかと尋ね始めました。 あなたがその人たちの一人なら、あなたはうってつけの場所に来ました。ここでは、AppleがM1で行ったことを正確に消化可能な部分に分解する予

                                              なぜ、AppleのM1チップはそんなに速いのか?
                                            • 呼びかけると遺影が出現、スマート仏壇「コハコ」 コンセプトモデル公開

                                              故人の名前を呼びかけると遺影の写真が表示され、タッチセンサーに触れると「おりん」が鳴る──。こんな「スマート仏壇」のコンセプトモデル「コハコ」を、デザインスタジオのBIRDMANと映像制作の二番工房が公開した。 現代の家庭には、仏壇を置く「仏間」や、洋風のインテリアに合うデザインの仏壇がないことが多く、仏壇を置きづらいという事情がある。そこで両社は、どんな間取りやインテリアにも溶け込む仏壇を開発しようと考えたという。 位牌(いはい)に見立てたUSBメモリをコハコの中に入れると、7.9インチの円形IGZO液晶ディスプレイでUSBに保存された写真や動画データを再生できる。 コハコには、カメラやマイク、LEDタッチセンサー、アロマディフューザーなどを内蔵。仏壇の前に立つとセンサーが起動し、顔や音声認識で個人を判別するという。 故人の名前を呼びかけるとディスプレイに遺影の写真を表示する他、タッチセ

                                                呼びかけると遺影が出現、スマート仏壇「コハコ」 コンセプトモデル公開
                                              • ブラウザ上で3Dキャラクターと会話できる「ChatVRM」をオープンソースで公開しました - pixiv inside

                                                こんにちは、VRoid部のkeshigomuです。 普段は主にVRoid Hubのフロントエンドエンジニアとして、3Dキャラクターを表示するビューワーの開発に携わっています。また@pixiv/three-vrmという、Web上で3Dモデルを使ったコンテンツを開発するためのOSSライブラリの運用も行っています。 今回、ブラウザで簡単に3Dキャラクターと会話できる技術デモ「ChatVRM」とそのコードをオープンソースで公開しました。 「ChatVRM」は、テキスト・口頭で話しかけた言葉にキャラクターがフルボイスで回答してくれる「キャラクターと会話できる」デモです。WEBブラウザ上で動作でき、3Dキャラクターのインポート・切り替え、キャラクターに併せて声を調整することもできます。 (2023/07/10追記) 読み上げ音声の生成に使用していたKoeiro APIの提供終了に伴い、以前のデモとコー

                                                  ブラウザ上で3Dキャラクターと会話できる「ChatVRM」をオープンソースで公開しました - pixiv inside
                                                • 「自分の付加価値は何なのか」を考え続けていく必要がある 及川卓也氏が思う「エンジニア」と「生成AI」の関係性

                                                  及川卓也氏に聞く必要な“エンジニア力”の身につけ方 「自分の付加価値は何なのか」を考え続けていく必要がある 及川卓也氏が思う「エンジニア」と「生成AI」の関係性 米国OpenAI社が公開した「ChatGPT」が盛り上がりを見せている中、議論されがちなのは“AIの脅威”。それではエンジニアやプログラマーにとって、AIは脅威なのでしょうか?それとも新たな相棒なのでしょうか? 今まで多くのエンジニア組織をまとめてきた及川卓也氏に、エンジニアとChatGPTの関係についてうかがいしました。 ChatGPTに対してプログラマーができること ーー最近の話でいうと、ChatGPTのような生成AIが出てきて、なんか「エンジニアの仕事も取られるんじゃないの?」とか、エンジニアもプログラミングをやっていて、ChatGPTももちろんプログラミングをするというのはあるとは思うんですけど、そういう意見も一部はあるの

                                                    「自分の付加価値は何なのか」を考え続けていく必要がある 及川卓也氏が思う「エンジニア」と「生成AI」の関係性
                                                  • 月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita

                                                    何をした? Youtube上に公開されている動画の音声から、ディープラーニング技術を用いた音声合成ツールを構築しました。 今回対象にしたのは、バーチャルユーチューバー・にじさんじの委員長こと 月ノ美兎 さん(Youtubeチャンネル) です。 ※選出理由は、単純に私がYoutube上で一番推している方だからです。 成果 動画から抽出した音声と、音声を文章に起こしたテキストの組み合わせのデータセット約50分ぶんを教師データとして学習した結果 ※学習に必要なデータ量は最低でも1時間程度と言われているので、まだまだ足りていません… 月ノ美兎さんの音声合成ツールを作ってみた https://t.co/YVdWW9vREb via @YouTube — K2 (@K2ML2) May 29, 2020 発話内容が不明瞭な箇所がありますが、一応ご本人の声に近い音声を作成することができているかと思います

                                                      月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita
                                                    • オペレーティング・システムから、オペレーティング・エージェントへ|深津 貴之 (fladdict)

                                                      今回の発表で強く感じたことは、やはりOpenAIの目指すChatGPTが単なるチャットアプリケーションではないということだ。 従来のオペレーティングシステム(OS)はハードウェアとアプリケーションの架け橋である。だがOpenAIはChatGPTを「言語で命令できるオペレーティングエージェント」と位置付け、人生のあらゆるタッチポイントで新たなゲートキーパーとなろうとしているように思える。 IT競争は手前の取り合い歴史を振り返れば、IT競争の常道とは、ゲートウェイを手前に築くことにあったようだ。PCの争いをOSが無意味化し、OSの争いをブラウザが、ブラウザの争いを検索エンジンがと、そしてそれをスマホとアプリが…このようにITの争いは常に手前を争うものだった。こうして一番手前を抑えた企業は、大きな利益を手に入れた。 今、OpenAIの動きは、このメタゲームに大きな変化を加えつつある。 OpenA

                                                        オペレーティング・システムから、オペレーティング・エージェントへ|深津 貴之 (fladdict)
                                                      • 「ポーズ」と「合言葉」がなければ開かない自動ドア、文教大が開発

                                                        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 文教大学川合研究室の研究チームが開発した「ユーザのアクションによって反応する自動ドアの開発」は、音声と姿勢で認証する自動ドアの開閉システムだ。自動ドアに設置したカメラで姿勢推定と音声認識を行い、あらかじめ決めておいたポーズと言葉が合致すれば開く。

                                                          「ポーズ」と「合言葉」がなければ開かない自動ドア、文教大が開発
                                                        • Amazon大化けの10年。もう誰にも止められない

                                                          Amazon大化けの10年。もう誰にも止められない2019.12.24 21:0031,263 Adam Clark Estes - Gizmodo US [原文] ( satomi ) 「配達ありがとう。ご自由にどうぞ」という軒先の差し入れに感動して踊り出すAmazon配達員の動画、もう見ました? 監視カメラRingに残っていた映像を家主が投稿して再生1800万回のバイラルヒット中のものです。 いい話だな~♡と自分も一瞬ホンワカしましたが、Yahooで配達員のKarim Ahmad-Reedさんのこんな言葉を読んで固まってしまいました。 「差し入れのある家なんて初めてでした。あの日は昼ごはん忘れて腹ペコで、喉も少し乾いていたからね」 宅配のラスト・ワンマイルAmazon社員と言っても、宅配のラスト・ワンマイルの一番大変な部分を担うのは主に非正規雇用の契約ワーカーで、飲まず食わずでサンタ役

                                                            Amazon大化けの10年。もう誰にも止められない
                                                          • Google、「Googleアシスタント」への音声入力の一部を人間が聞いていることを認める Amazonに続き

                                                            Googleアシスタントはウェイクワード(「OK Google」や「ねえ、Google」など)をきっかけに音声の録音を開始するが、テレビの音声などでウェイクワードと誤認識することがあり、ユーザーが知らないうちに録音していることもある(Google HomeやGoogle Home Miniの場合、録音中はLEDが点灯して分かるようになっている)。 録音設定を無効にすることもできるし、録音データは1件単位で削除することも可能だ。 Googleは公式ブログで、「より多くの言語での音声技術の開発を目的とする取り組みの一環として、特定言語のニュアンスやアクセントを理解している世界中の言語の専門家と提携している。これらの言語専門家はわれわれが言語をより良く理解するために少量のクエリー(すべての音声データの約0.2%)をレビューし、テキスト化している。こうしたプロセスは、Googleアシスタントのよう

                                                              Google、「Googleアシスタント」への音声入力の一部を人間が聞いていることを認める Amazonに続き
                                                            • オープンソースとは何か? Open Source Definition逐条解説書 – Shuji Sado

                                                              オープンソースとは何か? Open Source Definition(オープンソースの定義) 逐条解説書 v1.0, 2024年1月22日 佐渡 秀治 Open Source guy オープンソース(Open Source)とは、米国の公益法人であるOpen Source Initiative(OSI)が策定した「オープンソースの定義」(Open Source Definition)で書かれた条件を満たすライセンス及びそのライセンスが適用されるソフトウェアのことである。このオープンソースという用語は自由ソフトウェア(Free Software)の代替として企図され、広く一般へ自由なソフトウェアを広めるためのキャンペーンのための用語として人為的に策定されたが、その後のオープンソース・ムーブメントと呼ばれる熱狂期を経て、紆余曲折ありながらも現在では世界の様々な領域においてオープンソースは当た

                                                                オープンソースとは何か? Open Source Definition逐条解説書 – Shuji Sado
                                                              • 「現時点で完全回復の予定なし」 Google Cloudのパリリージョンで障害 データセンター浸水 発生から27時間

                                                                クラウドサービス「Google Cloud」のパリリージョン(europe-west9)で、4月26日午前11時ごろ(日本時間)から障害が発生している。データセンターに水が浸入したといい、一部のサービスを除いて27日午後3時41分時点で障害が続いている。障害は長引く見込みで「現時点では、リージョンの運用が完全に回復する予定はない」(米Google Cloud)としている。 仮想マシンを立ち上げる「Google Compute Engine」(GCE)、ストレージサービス「Google Cloud Storage」(GCS)、音声認識サービス「Speech-to-Text」など複数のサービスが影響を受けた。このうちGCSなど4サービスはリージョン全体で復旧済み。GCEなど3サービスはリージョン内の一部ゾーンで復旧したという。 ただし、他のサービスは障害の影響が続いている。Google Clo

                                                                  「現時点で完全回復の予定なし」 Google Cloudのパリリージョンで障害 データセンター浸水 発生から27時間
                                                                • 高精度な文字起こしAIでYoutubeの字幕を作ってみた - ニートの言葉

                                                                  どうもこんにちは、あんどう(@t_andou)です。 今回はOpenAIの高精度な文字起こしAI「whisper」を試してみました。 ただ試すだけでは面白くないのでもう少し実用的なことを…と言うことで、Youtube用の字幕を作ってみました。 実行環境 使用した動画と結果 まずはモデルごとに精度確認 small 処理時間 結果 所感 medium 処理時間 結果 所感 large 処理時間 結果 所感 使用した動画と結果その2 最後に 実行環境 GoogleColabでGPUはT4でした。 使用した動画と結果 以前、リアルな顔がしゃべるAIを作ったので、その動画を使います。 声もAIによるもののため、僕の耳には聞き取りやすいですが、whisperにとってはどうでしょうか。気になります。 (ちなみに、この動画内で話しているニュースの文章もAIによる生成物です。) www.youtube.co

                                                                    高精度な文字起こしAIでYoutubeの字幕を作ってみた - ニートの言葉
                                                                  • 実践!大規模言語モデル / 1000億パラメータ越えモデルを動かすには?

                                                                    こんにちは。Turing株式会社の機械学習チームでインターンをしている九州大学修士1年の岩政(@colum2131)です。 Turingは完全自動運転EVの開発をするスタートアップです。 自動運転技術において、カメラやセンサ情報は正確な制御をする上で不可欠な要素である一方、自然言語やマルチモーダルな処理が必要となる状況もしばしば存在します。特に完全自動運転車においては、音声認識によってドライバーの音声命令を認識し、リアルタイムで適切な制御を行うことや、複雑な交通状況の背景にあるコンテクストを理解させるといった要求が出てきます。そのために、「基盤モデル」と呼ばれるような、自然言語処理を含む大規模モデルの学習が必要になってくると、私たちは考えています。 そこで本記事では、言語モデルの発展の流れとTuringが目指す基盤モデルの開発について紹介します! 1. 言語モデルとは? 近年の言語処理モデ

                                                                      実践!大規模言語モデル / 1000億パラメータ越えモデルを動かすには?
                                                                    • 達人出版会

                                                                      探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 R/RStudioでやさしく学ぶプログラミングとデータ分析 掌田津耶乃 データサイエンティストのための特徴量エンジニアリング Soledad Galli(著), 松田晃一(訳) 実践力をアップする Pythonによるアルゴリズムの教科書 クジラ飛行机 スッキリわかるサーブレット&JSP入門 第4版 国本 大悟(著), 株式会社フレアリンク(監修) 徹底攻略 基本情報技術者教科書 令和6年度 株式会社わくわくスタディワール

                                                                        達人出版会
                                                                      • 音声入力でメモを書けるウェブアプリを書いた、x-callbackを使ったアプリケーション連携

                                                                        voicodという音声入力でメモを書けるシンプルなウェブアプリケーションを書きました。 音声入力でメモができるシンプルなアプリケーションを書きました。https://t.co/EHSKnNKNaL x-callbackを使ってショートカット.app 等と連携すれば、入力内容をNotionに保存したりできます。 Note: SpeechRecognitionに対応したブラウザ(ChromeやSafari)が必要 Source: https://t.co/NnzXVjlGnF pic.twitter.com/yzoA3VIzzl — azu (@azu_re) February 10, 2022 SpeechRecognitionというウェブブラウザで音声認識をするAPIを使っているので、このAPIに対応しているブラウザが必要になります。 具体的にはGoogle ChromeやSafariなど

                                                                          音声入力でメモを書けるウェブアプリを書いた、x-callbackを使ったアプリケーション連携
                                                                        • 1文字ずつ口パクでスペル入力できるシステム、東大などが技術開発 タイピング速度はスマホに匹敵

                                                                          Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 東京大学、米ジョージア工科大学などによる研究チームが開発した「SilentSpeller: Towards mobile, hands-free, silent speech text entry using electropalatography」は、口パク(無声発話)で1文字ずつタイピングするハンズフリーの入力システムを提案する。 歩きながらでも入力が行える安定性を持ち、スマートフォンのQWERTY文字入力に匹敵するほどの十分なタイピング速度を兼ね備える。1文字ずつのスペル入力により、これまでの単語ベースで認識する無声発話入力よりも認識可能な語彙(ごい)が大幅に増加した。 音声入力だと

                                                                            1文字ずつ口パクでスペル入力できるシステム、東大などが技術開発 タイピング速度はスマホに匹敵
                                                                          • PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021

                                                                            Preferred Networks(PFN)は深層学習などの最先端の技術を最短路で実用化することで、これまで解決が困難であった現実世界の課題解決を目指しています。コンピュータビジョン、自然言語処理、音声認識、ロボティクス、コンパイラ、分散処理、専用ハードウェア、バイオインフォマティクス、ケモインフォマティクスといった幅広い分野で研究開発を行っており、それを支えているのが Kubernetes を用いて構築しているオンプレミス/ベアメタルの GPU クラスタです。 本セッションでは、PFN が Kubernetes を用いてクラスタを運用するなかでどのような障害が起きるのかを紹介し、また障害対応をどのように自動化しているのかを具体的に使用/開発したソフトウェアを含めてご紹介します。また Kubernetes クラスタの管理、アップグレードの自動化にも取り組んでおり、それを実現する Clus

                                                                              PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
                                                                            • Google、「Pixel 6a」を正式発表 自社チップ搭載で5万3900円 7月28日発売【追記あり】

                                                                              廉価版の立ち位置だが、上位モデルのPixel 6/6 Proと同じく、同社独自のGoogle Tensorプロセッサを搭載。RAMは6GB(LPDDR5)、ストレージは128GB(UFS 3.1)。セキュリティコプロセッサ「Titan M2」も内蔵する。その他、5年間のセキュリティアップデートを提供する。 ボディはメタルフレームを採用。「Sage」「Chalk」「Charcoal」の3カラーをラインアップ。ディスプレイは6.1インチのOLEDで、リフレッシュレートは60Hz。ディスプレイ内指紋認証センサーを内蔵する。バッテリー容量は4410mAh。急速充電をサポートするが、ワイヤレス充電には対応しない。重さは178gとPixel 6シリーズの中で最も小型・軽量に仕上がっている。 カメラは、1220万画素の広角カメラと1200万画素の超広角カメラのデュアル構成。前者は、絞りがF1.7でイメー

                                                                                Google、「Pixel 6a」を正式発表 自社チップ搭載で5万3900円 7月28日発売【追記あり】
                                                                              • ジェネレーティブAIで美樹さやかさんを錬成できるのか?

                                                                                ぶっちゃけ、最近はひたすらSD関係のディスコードに張り付くだけの日々だった。 だって毎日しっちゃかめっちゃかなドラマが起きてて面白すぎるから。 面倒だからここでまたイチから経緯を書いたりしないが、とにかくEmad氏の謝罪によって揉め事もひと段落したようだ。 私もいつまでもディスコなんか監視してる場合ではない。 ハッキリ言って、今の自分が画像AIに相当のめり込んでる事を認めざるを得ない。 しかし、2週間前にブログ記事を書いた段階では、自分がどういう風に画像AIにコミットしていけばいいのかサーパリ分かってなかった。 というか、世の中で何が始まりつつあるのかを正確に捉え切れてなかったのだ。 それが何か?というと、世界でジェネレーティブAI(GAI)の時代が始まりつつあるという事だ。 アメリカを代表するベンチャーキャピタルである、セコイアキャピタルが、「GAIが今激アツ!!」みたいな記事を9/20

                                                                                • インターネット上の文章にわざと誤字脱字をまぎれこませることでAIを狂わせるサイバー攻撃の可能性

                                                                                  画像や文章の自動生成、顔認識、ゲームのプレイなど、人間の行動を模倣するAIを開発するためには、膨大なデータセットで学習する必要があります。データセットの内容にはインターネットに存在する画像や文章が使われるケースが多くありますが、このインターネット上にある文章に含まれる誤字がAIの発達に大きな影響を及ぼすと、IBMリサーチ・Amazon・テキサス大学の研究者が発表しています。 [1812.00151] Discrete Adversarial Attacks and Submodular Optimization with Applications to Text Classification https://doi.org/10.48550/arXiv.1812.00151 If AI can read, then plain text can be weaponized – TechTa

                                                                                    インターネット上の文章にわざと誤字脱字をまぎれこませることでAIを狂わせるサイバー攻撃の可能性