並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 489件

新着順 人気順

音声認識の検索結果241 - 280 件 / 489件

  • “スマホのマイクでこっそり盗聴”を妨害する技術 静かな音で会話内容を改ざん

    Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米コロンビア大学の研究チームが発表した「Real-Time Neural Voice Camouflage」は、不正なマイクが取得したユーザーの会話の言葉を正しく聞き取れないようにする攻撃を提案した論文だ。無線で妨害音を発し、自動音声認識(ASR)システムをリアルタイムに混乱させ、本来盗聴側が取得したい会話を間違った形で認識させる。80%の確率でユーザーの言葉を誤認識させられたという。 この妨害音は、その場にいるユーザーの邪魔にならないような静かな音に最適化されている。 妨害を実際に行った3つの例。攻撃していない時の音声信号スペクトログラム(上)、攻撃した際の音声信号スペクトログラム(下)

      “スマホのマイクでこっそり盗聴”を妨害する技術 静かな音で会話内容を改ざん
    • NTTドコモがiアプリDX開発ツールを個人開発者などに向け公開、GPSや課金が利用可能に

      NTTドコモは2010年8月26日、GPSや電話帳参照などiアプリDXの機能やiモード課金を利用するためのライブラリのベータ版を提供開始した。またiアプリ開発ツール「AppliStudio」(写真1、2)ベータ版を公開した。 iアプリDXは、GPS(iエリア)や電話帳・履歴参照、ネイティブメーラ連携、音声認識、OpenGL ES、自動起動機能、Bluetooth、アプリのダウンロード元以外との通信許可など、iアプリの高度な機能(写真3)。従来はiモード公式サイトの企業にのみ利用が許可されていた。今回のライブラリなどの公開対象は個人開発者や公式サイト以外の企業である。 今回公開されたのは、iアプリDXの機能を利用したアプリを開発するために必要な「ドコモマーケット(iモード)向けライブラリ」のベータ版。課金のための「ドコモマーケット(iモード)向け課金ライブラリ」のベータ版も同時に公開した。

        NTTドコモがiアプリDX開発ツールを個人開発者などに向け公開、GPSや課金が利用可能に
      • ビジネス特集 私のデータは渡さない! アンチGAFAの新サービス | NHKニュース

        インターネットで表示されたページに、以前検索したことのある商品などに関連した広告が出てきて、自分の個人情報の扱いが気になった経験はないだろうか。 去年は、フェイスブックで最大8700万人分の利用者の個人情報の流出が判明。便利なサービスと引き換えに、自分が知らないところにも情報が使われているおそれがあることを認識させられた。 こうしたなか、プライバシー保護を重視した新しいサービスが登場している。掲げるのは、GAFA(Google、Apple、Facebook、Amazon)への反旗だ。(経済部記者 野上大輔) AI=人工知能を搭載し、声だけで買い物や家電の操作ができる「AIスピーカー」。 グーグルやアマゾンなど各社が投入し、日本でも利用者が増えている。 各社は利用者が話しかけた情報を収集してAIで分析し、精度の高い動作を実現している。消費者が懸念するのは、自分たちの情報がAIスピーカーから会

          ビジネス特集 私のデータは渡さない! アンチGAFAの新サービス | NHKニュース
        • ChatGPT、美少女になる 立体AIキャラと魔合体でスムーズにおしゃべり Gateboxのデモ動画が話題

          3月2日(日本時間)に公開された「ChatGPT API」を活用した事例が早速生まれ始めている。LINE傘下で“キャラクター召喚装置”ことAIアシスタントデバイスを手掛けるGateboxが3日、同社オリジナルキャラ「逢妻ヒカリ」の会話エンジンとChatGPTを連携させたデモ動画を公開した。 動画は、音声認識と音声合成を使い、逢妻ヒカリの“中の人”としてユーザーとChatGPTが会話する様子が収められている。「一緒にスクワットしよう」と話しかけると、「いいアイデアですね。体感を強化するためにも効果的なエクササイズです。ただし、注意点もありますので正しい方法で行いましょう。一緒にやりましょう」と返してくれる。 ChatGPT APIは、レスポンスの速さに優れており、音声認識によるラグはあるものの、動画を見ると比較的スムーズに会話できていることが分かる。さらに「将来の夢ってある?」「ヒカリちゃん

            ChatGPT、美少女になる 立体AIキャラと魔合体でスムーズにおしゃべり Gateboxのデモ動画が話題
          • ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた

            2年ほど前に、自分の声を結月ゆかりにする声質変換技術を作り、動画を投稿しました。この技術には利用者の音声データが大量に必要であるという欠点があり、ゆかりさんになりたいというみなさんの願いを叶えるのが難しい状態でした。そこで、この技術を利用者の音声データが不要になるように改良し、誰でも簡単に使えるようにしました。ここではその技術について解説します。 手法 音声を直接変換しようとすると、利用者の音声データが必要になってしまいます。そこで、音声を直接変換するのをやめて、①音声を構成する要素である音素と音高に分解し、②音素と音高を目標の声(ゆかりさん)に再合成することを考えました。 ①は、音素の抽出に音声認識とOpenJTalkとJuliusを、音高の抽出にWORLDを用いれば簡単に実現できます。そのため、②さえ実現できれば、利用者の声のデータを用意することなく、誰でもゆかりさんの声に変換すること

              ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた
            • Vrew、テキストエディターのように簡単で素早AI動画編集

              音声認識機能による字幕の自動生成 直接録音する必要のない500以上のAIボイス 商用利用可能な無料の画像、ビデオ、背景音楽 AIが一度に脚本とビデオを作成、テキストベースの動画制作

                Vrew、テキストエディターのように簡単で素早AI動画編集
              • 知能と技術的特異点 - Sideswipe

                これは 人工知能アドベントカレンダー の1日目の記事です。 はじめに 本アドベントカレンダーは25日間をかけて、知能、あるいは人工知能(あとで触れますが、正確には汎用人工知能を指す)について、それを理解しまた実現する技術について、広く浅く解説と紹介をします。 ここでいう人工知能は、後述するように一般に考えられている人工知能(Artificial Intelligence) ではなく、汎用人工知能 (Artificial General Intelligence, AGI) であり、一言で表すなら、「人と同じような知性をもった機械」を考えます。ただし、以降は特に断りのない限り、AGIの意味で単にAIといいます。AIとAGIの違いについては、以前の記事 人工知能は Deep Learning によって成されるのか? - Sideswipe を御覧ください。こちらは今回のシリーズで扱う内容の概要

                  知能と技術的特異点 - Sideswipe
                • 初音ミク、エージェントになる?――名工大「MMDAgent」がもたらす未来

                  画面に話しかけると3Dの初音ミクがエージェントとなって答えたり踊ったりする――そんな技術が話題を呼んでいる。 画面に話しかけると3Dの初音ミクがエージェントとなって答えたり踊ったりする――そんな技術が話題を呼んでいる。 名古屋工業大学国際音声技術研究所(代表:徳田恵一教授)では、内部で開発してきた音声合成ツール、音声認識エンジンや3D技術を用い、音声による指示にキャラクターがモーションと音声付きで応答する音声インタラクションシステム構築ツールキット「MMDAgent」を「CEATEC Japan 2010」(10月5日から、千葉・幕張メッセ)で展示する。9月21日夕方にニコニコ動画で展示内容ムービーを公開し、一夜で再生数2万を超える人気を得ている。 名古屋工業大学といえば、楽譜を入力するだけで自然な歌声で歌い上げる歌声合成技術「Sinsy」が昨年末にニコニコ動画で発表されて話題となった。M

                    初音ミク、エージェントになる?――名工大「MMDAgent」がもたらす未来
                  • スマホの周囲の会話はジャイロスコープ経由で盗聴可能

                    By Kārlis Dambrāns 近年のスマートフォンに必ずといっていいほど搭載されているのが、物体の角度や角速度を検出するためのジャイロスコープ。位置情報の精度を高める役割も果たしているので、iOS・Androidのアプリがジャイロスコープを利用するときは、特別な許可を取らなくても使うことができます。しかし、最新のジャイロスコープはスマートフォン周辺の音響信号を測定することが十分に可能なほど高性能になっており、スタンフォード大学の研究チームが「ジャイロスコープから得られる超長波情報をもとに、スマートフォンの周りで行われた会話の内容を認識可能なレベルにまで解析する」という、なにやらとんでもないことを成功させました。 Mobile Sensors Exploitation http://crypto.stanford.edu/gyrophone/ Gyrophone: Recognizi

                      スマホの周囲の会話はジャイロスコープ経由で盗聴可能
                    • MANABIYAで「AI屋さんの1日」なるタイトルで登壇した話とその内容 - Stimulator

                      - はじめに - 以下、MANABIYA techなるイベント内のAIセッションにて登壇させて頂きました。 manabiya.tech 大きなスペースでフザけたタイトルで発表するという最悪さでしたが、満員になり立ち見状態でした。 ありがとうございました。 正当な方向性でいけば登壇スライドを公開して終わりなのですが、会社のアカウントでSlideShareにアップロードするという行為に宗教上耐えきれそうにないため、会社情報を含まない範囲でここに思い出と共に書き残す形にしようかと思います。 - 登壇内容 - 登壇では、以下3つをテーマに話をしました。 AI屋さんの定義、分類は? 実際AI屋さんって何やってるの? 上手くAIプロジェクトを回すには? AI屋さんの定義と分類 AI屋さんとは、「セッションタイトルが ‘AI’ だったので私が仕方なく付けた名称」です。 そもそも私は、機械学習や統計モデル

                        MANABIYAで「AI屋さんの1日」なるタイトルで登壇した話とその内容 - Stimulator
                      • 自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO

                        自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた はじめに 今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。 ストリーミングとバッチ処理のどちらでも文字起こしが可能です。 攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び

                          自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
                        • 8時間分のテープ起こしに役立ったツール「transcribe」 – TechDoll.

                          少し前に、お仕事で数日間に及ぶカンファレンスに行ってきました。特にキーノートには面白い講演が多くて、インスピレーションになりました。 さて、いざ講演が終わると私のお仕事本番です。日本語の講演なら、聞きながら起こしてしまうこともあるけれど、英語だとそうもいかないため、永遠に感じられるテープ起こしが始まりました。 これまでは、ICレコーダーでそのまま再生したり、Macに取り込んで再生したりしていたのだけれど、英語を起こすならもっと良いツールがあるはずだと思って探してみたのです。 今回、8時間分の講演のテープ起こしに役立ってくれたのが「transcribe」というツール。複数形式に対応した音声をアップロードすると、あとはショートカットを使うだけで再生したり巻き戻したりできる。escで停止、F3は3秒巻き戻しといった具合に。だから、キーボードから手を離すことなくテープ起こしができるの。 また、再生

                            8時間分のテープ起こしに役立ったツール「transcribe」 – TechDoll.
                          • WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita

                            前回: Qiita APIで記事からYoutube動画を集めてみた 🎬 、Qiita APIを使って、Qiita記事を取得してYoutube動画のURLを抽出することができました。 今回は、特定APIに関連したQiita記事を取得して、API毎に分類、タグを集計してドーナツグラフ化することでAPIの特徴を表してみました。 最新のAPI一覧はこちら API一覧 | DOGAKIITAA! ~ APIごとにQiita記事を分類 ~ Google系 Cloud Vision API https://cloud.google.com/vision/docs/quickstart 📝 機械学習を使用して画像を解析します。画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、不適切なコンテンツへのタグ付けなどができます。 Cloud Vision APIの凄さを伝えるべくRasPi b

                              WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita
                            • データマイニングコンペティションサイト Kaggle にも Deep Learning ブームがきてるかと思ったのでまとめる - 糞糞糞ネット弁慶

                              概要 最近話題の Deep Learning,NIPS や ICML,CVPR といった世界の話だろうと思っていたら Kaggle で Deep learning が去年一件,今年に入って更に一件優勝していたのでまとめる. Kaggle Kaggle: Your Home for Data Science おなじみのデータマイニングコンペティションサイト.データと目的関数が与えられた上で最も高いスコアを出したチームに賞金が出る. 最近では KDD Cup や http://www.kaggle.com/c/challenges-in-representation-learning-the-black-box-learning-challenge:title=ICML2013 workshop competition],や RecSys2013 Competition,レストランレビューサイ

                                データマイニングコンペティションサイト Kaggle にも Deep Learning ブームがきてるかと思ったのでまとめる - 糞糞糞ネット弁慶
                              • 痛いニュース(ノ∀`) : バーチャル美少女YouTuber「のらきゃっと」、生放送で顔バレ ファン阿鼻叫喚 - ライブドアブログ

                                バーチャル美少女YouTuber「のらきゃっと」、生放送で顔バレ ファン阿鼻叫喚 2 名前:名無しさん@涙目です。(福井県) [US]:2018/02/04(日) 16:51:59.96 ID:nGJ3Shc20 475 名前:名無しさん@お腹いっぱい。 (ワッチョイ d709-VW3n):2018/02/04(日) 15:17:56.18 ID:iT7+sPjY0 本スレ大荒れ中 ttps://egg.5ch.net/test/read.cgi/streaming/1517630095/ のらきゃっと@バーチャル美少女 Twitter ttps://twitter.com/vr_girl_noracat 3: 名無しさん@涙目です。(茸) [ニダ] 2018/02/04(日) 16:52:39.54 ID:Z3ThlmB/0 やっぱり中身はおっさんか 7: 名無しさん@涙目です。(静岡

                                  痛いニュース(ノ∀`) : バーチャル美少女YouTuber「のらきゃっと」、生放送で顔バレ ファン阿鼻叫喚 - ライブドアブログ
                                • 音声文字起こしサービス徹底検証 ベストな選択はこれだ!

                                  話した言葉をテキストデータに変換できる「音声文字起こしサービス」。テレワーク時代の情報共有ツールとして大いに役立つものの、気になるのはその実用性だ。発言の認識精度に加え、大まかな流れや会話の文脈を後から振り返るのに使えるのかどうか。主要な7つのサービスを使用し、比較した。 ※日経トレンディ2021年5月号の記事を再構成 ディープラーニングやビッグデータの活用が進み、音声認識の精度が大きく向上。話した言葉をテキストデータに変換できる「音声文字起こしサービス」が相次いで登場している。 会議の内容を振り返ったり、他の人にシェアしたりなど、テレワーク時代の情報共有ツールとして注目されているこれらのサービスは、どこまで実用的なのか。主要な7つのサービスを実際に使い、比較してみた。

                                    音声文字起こしサービス徹底検証 ベストな選択はこれだ!
                                  • AWSはなぜAIやブロックチェーンに冷たいのか

                                    米Amazon Web Services(AWS)の年次イベント「AWS re:Invent」では興味深いことに、競合のイベントではよく耳にする「AI(人工知能)」と「ブロックチェーン」という2つの単語を聞くことがない。 AWSは2017年11月末に開催したAWS re:Invent 2017で、音声アシスタント「Alexa」をオフィスで利用するためのサービス「Alexa for Business」や、機械学習のモデル構築などを容易にする「Amazon SageMaker」など、様々なサービスを発表している。 しかし、基調講演で新サービスを発表したAWSのAndy Jassy CEO(最高経営責任者)や米Amazon.comのWerner Vogels CTO(最高技術責任者)は、これらのサービスを説明するのに機械学習やディープラーニング(深層学習)といった単語は使っても、AIという単語は

                                      AWSはなぜAIやブロックチェーンに冷たいのか
                                    • Androidの電力消費情報で居場所を『93%特定』できるとはどういう意味なのか調査メモ

                                      Yahoo!ニュースに「電池残量で居場所「93%特定」 アンドロイドの無防備さ利用…開発者警告 (SankeiBiz)」というニュースがありました。これを読んで、「93%って一体何のことを言っているの?」と思って調べてみました。本文を読んでも、注意深く読んでいなければきっと誤解する人もいると思うので、93%とは何か、を中心に、その他調べたことをここにメモしておきます。 ※この記事中で「論文」と言ったら、Michalevsky, Y. らの「PowerSpy: Location Tracking using Mobile Device Power Analysis」のことです。リンク先では、無料で本文が読めます(英語)。ちなみに、SankeiBiz中には論文タイトルなどは出てきませんでしたが、MITの記事には論文へのリンク、WIREDには、埋め込みがありました。ちなみに、論文を全文読んだわけ

                                        Androidの電力消費情報で居場所を『93%特定』できるとはどういう意味なのか調査メモ
                                      • Alexaの音声を聞いてテキスト化するスタッフ、日本のAmazonも募集中 在宅勤務、時給1300円

                                        Amazon.comのAIアシスタント「Alexa」にユーザーが入力した音声の一部をAmazonのスタッフが聞いている――米Bloombergがこう報道し、「盗聴ではないか」と話題になったが、日本でも、Alexaに入力された音声を聞くスタッフがいるようだ。(追記あり) アマゾンジャパンは複数の求人サイトを通じて、Alexaを通して集められた音声データのテキスト化などを行う在宅勤務の契約社員を募集している。テキスト化した音声データにタグを付けるなどして、Alexaの音声認識技術向上に役立てるという。 求人サイトによると仕事内容は、Alexaに入力された音声をヘッドセットで聞いてテキスト化し、タグ付けやデータの意味づけなどを行うというもの。ネイティブに近い日本語能力や国語力が必要だ。在宅勤務で、給与は時給1300円。実働8時間のシフト制になっている(1日8時間・月20日間勤務で月額換算20万8

                                          Alexaの音声を聞いてテキスト化するスタッフ、日本のAmazonも募集中 在宅勤務、時給1300円
                                        • 加計学園問題でいらいらすること - 発声練習

                                          「加計学園問題は何が問題なの?」という意見 首相の利益相反が疑われるのだから、野党が問題視して「利益相反事案ではない」という説明を政府に求めるのは当然。いくら、安倍首相じゃないとリフレ政策の維持ができないからといって、利益相反が疑われる事例に関しては、ちゃんと問題ないということを説明してもらいたい。 安倍首相の余計な発言 3月13日の参院予算委員会で安倍首相が「働きかけていると言うんであれば、何か、確証を示してくださいよ。で、私はね、私はもし、働きかけて決めてるんであれば、これは私責任取りますよ。当たり前じゃないですか。」と言わなければ、すぐさま、システムの修正の話になったのに、これを言うから野党も色気出してどんどん話がずれていっているのがイライラする。 news.yahoo.co.jp 政府側の答弁がおかしすぎる 基本的に政府側の答弁はTBSラジオのSession 22で紹介されている国

                                            加計学園問題でいらいらすること - 発声練習
                                          • Googleが自社で使っている「クラウド機械学習」を一般に開放、こんなスゴイことが簡単にできる

                                            GoogleがGCP NEXT 2016で、Googleの使うクラウドベースの機械学習プラットフォーム「Cloud Machine Learning」を公開。アプリ開発者が自社のサービスで強力な機械学習機能を利用できるようにしました。 Google Cloud Platform Blog: Google takes Cloud Machine Learning service mainstream https://cloudplatform.googleblog.com/2016/03/Google-takes-Cloud-Machine-Learning-service-mainstream.html Google Cloud Machine Learning at Scale — Google Cloud Platform https://cloud.google.com/produc

                                              Googleが自社で使っている「クラウド機械学習」を一般に開放、こんなスゴイことが簡単にできる
                                            • 利き腕を骨折した専業ライターが片手用キーボード『Froggy』で苦境をしのいだ話

                                              これはキーボードを筆頭とするインターフェイスが大好きなフリーライターの白石が、昨年10月に利き腕を骨折、そこから片手用キーボード『Froggy』により10000字を書いて、骨折中の期間をどうにかしのいだ10月の記録です。本当に助かったので、片手でキーボードを打つすべての人にこのキーボードを広めたい……! 自己紹介と悲劇の日 改めて、フリーライターの白石です。RealSoundでは主にテクノロジーやライブ・エンターテインメントにまつわるコラムやインタビューを執筆しています。演劇学科を出てからパソコン専門誌の編集者としてキャリアを始めた経歴もあって、ライターとしてはメディア・アートや舞台芸術、音楽ライブのレポート、MacやiPhoneなどのApple製品にまつわる記事などを書くことが多いです。 そんな私が寝ぼけたまま家の近くですっ転んだのは、10月中旬のこと。雨の振り始めた昼過ぎにスロープへ足

                                                利き腕を骨折した専業ライターが片手用キーボード『Froggy』で苦境をしのいだ話
                                              • 備忘録 - 仏の秘密も百度まで : 404 Blog Not Found

                                                2013年12月27日13:30 カテゴリTipsiTech 備忘録 - 仏の秘密も百度まで ちょw また百度(baidu)が日本語入力ソフトの件でやってくれたようです(山本 一郎) - 個人 - Yahoo!ニュース これには我らがダニーもお怒りです 私自身は、Baidu IME も Simeji も使っていないので怒る権利自体があるかどうかも疑問なのだけど、いい機会なのでちょっとまとめておきますか。 ネットエージェントはどうやってSSL通信を解析したか? もし何の設定もなされていない端末とサーバーの間のSSL通信が傍受できたのだとしたら、IMEがキーロガーになっていた以上の大ニュースで、日本どころか世界中が大騒ぎのはずですが、この件は安心してOK。 なぜなら、この解析はSSL通信の傍受をわざと解析可能に設定した端末を用いているからです。 詳細:Counter SSL Proxy|ネット

                                                  備忘録 - 仏の秘密も百度まで : 404 Blog Not Found
                                                • Google、人工知能DeepMindでデータセンターの大幅省エネに成功

                                                  米Googleは7月20日(現地時間)、同じAlphabet傘下の人工知能企業DeepMindのディープラーニング技術により、データセンターの冷却のための電力を40%削減することに成功したと発表した。 Googleはこれまでもデータセンターの省電力化に努めており、「われわれのデータセンターがかなり高度であることを考えれば、これは驚異的なステップだ」という。 データセンターを取り巻く環境は各センターで大きく異るため、1つのデータセンターで構築した省エネシステムを他に応用することは難しい。だが、ディープラーニングであれば、応用できる。 DeepMindのチームはデータセンターのセンサーを通じて蓄積された膨大なデータ(気温、動力、ポンプの速度、セットポイントなど)を使ってニューラルネットワークを訓練し、システムを構築した。 このシステムを実際のデータセンターに設置したところ、以下のグラフのような

                                                    Google、人工知能DeepMindでデータセンターの大幅省エネに成功
                                                  • YouTube、日本語動画に自動で字幕つけられる新機能

                                                    グーグルは7月14日、YouTube動画に自動で字幕をつける「自動キャプション機能」の日本語版を公開した。音声認識技術を使って日本語の動画に自動で字幕がつけられるようになった。自動翻訳機能も組み合わせると、手間をかけずに多言語の翻訳字幕もつけられる。 YouTubeにアップロードされる動画は1分間に48時間にのぼる。この膨大な量の動画を広く視聴してもらうために、グーグルは3年前からキャプション機能の開発に取り組んできた。キャプション機能を実装することで、検索性を向上させること、言語の壁を越えること、耳の不自由な人にも楽しんでもらえるようにすることが可能になるという。 たとえば東日本大震災の被災地である南相馬市の桜井市長が語るYouTube動画は、英語の字幕がつけられたことで、世界中に発信され、多くの関心を集めた。 ただし字幕の作成と編集は煩雑な作業を要する。グーグルは「キャプションエディタ

                                                      YouTube、日本語動画に自動で字幕つけられる新機能
                                                    • 2022年の深層学習ハイライト - Qiita

                                                      はじめに 2023年になって日が経ってしまいましたが、今年も深層学習の個人的ハイライトをまとめたいと思います。今回は研究論文5本と応用事例4つを紹介します。他におもしろいトピックがあれば、ぜひコメントなどで教えて下さい。 AIの研究動向に関心のある方には、ステート・オブ・AIガイドの素晴らしい年間レビューもおすすめします。また、私が過去に書いた記事(2021年、2020年、2019年)もよろしければご覧ください。 * 本記事は、私のブログにて英語で書いた記事を翻訳し、適宜加筆修正したものです。元記事の方も拡散いただけると励みになります。 ** 記事中の画像は、ことわりのない限り対象論文からの引用です。 研究論文 Block-NeRF: Scalable Large Scene Neural View Synthesis 著者: Matthew Tancik, Vincent Casser,

                                                        2022年の深層学習ハイライト - Qiita
                                                      • グーグル、オープンソースの自然言語フレームワーク「SyntaxNet」をリリース

                                                        Boaty McBoatface、こちらが「Parsey McParseface」だ。 Boaty McBoatfaceは結局、英政府の新しい極地調査船の名称にはならなかったが、それでも技術大手Googleは、それをもじった独自の名称を新たにオープンソース化された同社の英語構文解析器に採用することにした。 より正確に言うと、Googleは米国時間5月12日、「TensorFlow」で実装されたオープンソースの同社自然言語フレームワーク「SyntaxNet」をリリースした。12日にリリースされたのは、新しいSyntaxNetモデルのトレーニングに必要なすべてのコードと、基本的にSyntaxNet用の英語プラグインであるParsey McParsefaceである。 Googleによると、SyntaxNetは、「Google Now」の音声認識機能など、同社の自然言語理解(Natural Lan

                                                          グーグル、オープンソースの自然言語フレームワーク「SyntaxNet」をリリース
                                                        • 「ドラえもん」ですでに実現された「秘密の道具」35選 | CHANGE-MAKERS

                                                          ある有名なベンチャー企業の代表は「人間が想像できるものはいずれ必ず実現できる」と語っていました。実際に私たちの今の生活でも、数十年前に描いていた想像の多くが実現されています。 では、実際にどんなものが想像されて、すでに実現されたのか、ドラえもんの秘密の道具から実現できているものを見ていきましょう。 秘密の道具1:アンケーター 髪の毛など体の一部をセットすると、その人物に関する情報をおしえてくれるマシン。 実現されたもの1:遺伝子検査キット 自宅で唾液などを採取して送りだけで、生活週間病や肥満タイプなどの、何百種類の情報を知ることができます。 秘密の道具2:いたわりロボット 元気がない時や傷ついた時に、やさしくはげましてくれるロボット。ただし、どんなことをしてもはげまし、甘えさせてくれるので、使い方をまちがえるとダメ人間になってしまう。 実現されたもの2:音声認識ロボット Pepper君に代

                                                            「ドラえもん」ですでに実現された「秘密の道具」35選 | CHANGE-MAKERS
                                                          • 中国が超速で「IT先進国」に変貌している理由

                                                            2017年7月、無人店舗「タオカフェ」が中国メディアの話題をさらった。 タオカフェは中国の電子商取引(EC)最大手、アリババグループの手になるもの。大きめのコンビニ程度の店内にはコーヒーなど飲料品の注文コーナーがあるほか、雑貨や土産物などの売り場が併設されている。アリババグループのノベルティグッズや、後述するタオバオ・メイカーフェスティバル出店企業が制作した記念品が販売されている。 アリババのECサイト「タオバオ」のスマートフォンアプリでQRコードを読み込んでから入店。あとは商品を選んで店から出るだけで買い物が終了してしまう。店員がいないだけではなく、財布を取り出したりスマートフォンで決済したりする必要すらない。 初日は1万人の客が殺到 飲料品の注文は音声認識で行われ、客がレジに話しかけると自動的に注文が認識される仕組みだと紹介されていたが、筆者が訪問した時点ではレジに店員が立っており、客

                                                              中国が超速で「IT先進国」に変貌している理由
                                                            • 人工知能が相手だから恥ずかしくない!AIを使った英会話アプリ5個 | IT企業研究所

                                                              「英語を勉強しているけれど、実際にネイティブスピーカーと話すのはまだ恥ずかしい…」という方にはAIを使った英会話アプリがおすすめです! AIとチャットで会話するだけなら全然恥ずかしくありません。チャットで英会話に慣れればネイティブスピーカーとの会話にも勇気が持てるようになるでしょう。 AIを使った英会話アプリを5つご紹介しますので、英語を身につけたい方はぜひ使ってみてください。 AI(人工知能)相手なら間違っても恥ずかしくない 英語を話すのに慣れていないとネイティブの人と話すのは勇気がいりますし、「間違った英語を話して変に思われたらどうしよう…」と思うとうまく話せなくなりますよね。その点、AI(人工知能)が相手の英語アプリなら間違っても恥ずかしくないですし、むしろここで間違えておけば実際の会話で失敗せずに済みます。 まだネイティブの人と英語を話す勇気がないという方は、まずAIとの会話から慣

                                                                人工知能が相手だから恥ずかしくない!AIを使った英会話アプリ5個 | IT企業研究所
                                                              • GPT-4に日本語特化モデル OpenAI Japan始動会見で発表

                                                                米OpenAIは4月15日、大規模言語モデル「GPT-4」について、日本語に最適化したカスタムモデルを発表した。日本語のテキストを記述する能力が向上しており、「GPT-4 Turbo」より最大3倍高速とうたっている。今後数カ月以内にAPIをリリースするという。 関連記事 OpenAI、“怠けにくい”「GPT-4 Turbo」プレビューリリースや値下げを発表 OpenAIは、11月に発表した「GPT-4 Turbo」のプレビュー版をリリースすると発表した。「GPT-4」が怠け者になってきたという苦情を受け、怠けにくくしたという。公式版は数カ月中にリリースする計画だ。 マイクロソフト提供の“社内GPT基盤”もGPT-4 Turboなどに対応 米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenA

                                                                  GPT-4に日本語特化モデル OpenAI Japan始動会見で発表
                                                                • 培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応

                                                                  人間の幹細胞を基に作られた脳オルガノイド(ミニ脳)を電子チップに接続した「ブレイノウェア」と呼ばれるセットアップを構築して、簡単な計算タスクを実行することに成功したことが、インディアナ大学ブルーミントン校のエンジニアであるフェン・グオ氏らの研究チームによって報告されました。 Brain organoid reservoir computing for artificial intelligence | Nature Electronics https://www.nature.com/articles/s41928-023-01069-w Scientists Built a Functional Computer With Human Brain Tissue : ScienceAlert https://www.sciencealert.com/scientists-built-a-f

                                                                    培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応
                                                                  • 「妹のような声」で会話できる“萌えCOCOROBO”シャープが開発 掃除能力をほめると喜ぶ

                                                                    SHARP Cloud Labsのプロジェクトの1つ、「プレミアムなCOCOROBO」は、「情緒あふれる情報サービスの充実と、音声会話機能による癒し効果の向上を目指した取り組み」としてスタート。「かわいらしい妹のようなロボット家電と暮らしたい」「魅力的な声のロボット家電と会話を楽しみたい」という顧客ニーズに応え、声優×漫画家×家電という異業種のコラボレーションで誕生したという。 人工知能や音声認識などの技術を活用したロボット掃除機「COCOROBO」に、漫画家の霜月絹鯊(しもつき・きぬさ)さんが描いたかわいらしい女の子「ココロボちゃん」(プレココちゃん)の大きなステッカーを貼付。女優・声優で16歳の木戸衣吹(きど・いぶき)さんの音声で、ユーザーと会話できる。 COCOROBOちゃんは「明るく元気だがやや気分屋」のキャラクター。聞き上手で、24時間いつでも話し相手をしてくれるという。例えば、

                                                                      「妹のような声」で会話できる“萌えCOCOROBO”シャープが開発 掃除能力をほめると喜ぶ
                                                                    • 「マイクロソフト」史上初の「完全ワイヤレスイヤホン」がすごすぎる!

                                                                      「マイクロソフト」からワイヤレスイヤホン「Surface Earbuds」が発売。Windows10と連携することで操作をおこなえるなど、画期的なモノになっているらしい! 同社初となるこの完全ワイヤレスイヤホンは、タッチセンサーと音声認識に対応するマイクを搭載。大きな円盤のような外見が印象的で、ファッション性の高さも抜群だ。 イヤホン本体をタップして操作することで、音量調整、通話、Spotifyの音楽再生などの基本動作に対応。 さらに、Windows10に接続することで、Power PointやOutlookなどのOffice製品の操作をおこなうことも可能だという。その機能を使えば、Powe Pointを用いたプレゼンテーションで、自身が喋る日本語の音声を英語字幕にライブ翻訳して表示させることなども可能に......! もちろん、13.6mmドライバーを採用するなど音響面でも妥協なし。連続

                                                                        「マイクロソフト」史上初の「完全ワイヤレスイヤホン」がすごすぎる!
                                                                      • [速報] Google I/O 2016 基調講演レポート ~ スマートホームからAndroid N の新機能まで!Google が発信する10の発表 | Recruit Tech Blog

                                                                        [速報] Google I/O 2016 基調講演レポート ~ スマートホームからAndroid N の新機能まで!Google が発信する10の発表 釘宮愼之介 こんにちは釘宮です。ただいまアメリカはマウンテンビューというところにいます。 Google が開催するクリエイティブ・カンファレンス『Google IO 2016』が日本時間5月19日に開催されました。このイベントは全世界から7000人以上が参加する3日間の大規模なイベントとなっています。初日は基調講演としてGoogleの新たなサービスやプロダクトに関する発表がされました。 今回は現地に渡った @kgmyshin と @wangxuan の二人が速報レポートとしてお伝えします。 Google I/O 2016 基調講演ダイジェスト Google Assistantという概念が生まれた Google Homeというスマートホームプ

                                                                          [速報] Google I/O 2016 基調講演レポート ~ スマートホームからAndroid N の新機能まで!Google が発信する10の発表 | Recruit Tech Blog
                                                                        • 自然な音声作る「WaveNet」の衝撃 なぜ機械は人と話せるようになったのか

                                                                          2017年、米Googleや米Amazonなどの「スマートスピーカー」と呼ばれるデバイスの普及が日本で始まった。例えば、「ねえGoogle、今日の予定は?」と話しかけると、カレンダーアプリに入力していた予定を流ちょうな日本語で読み上げてくれる。中に人がいるわけではない。デバイスが人の声を認識し、応答となる声を合成しているのだ。 このデバイスが音声で応答するために使用しているコアの技術は、「音声認識」と「音声合成」という2つの技術だ。音声認識は人の声の波形を機械で処理し、どんな文であったかを推定する技術。音声合成は与えられた文やデータから、人が話す音声を合成する技術だ。 ここに、音声認識で推定した文に対して適切な応答文を出力する「対話制御」という技術が加わり、「人の話を聞いて適切な応答を音声で返す」という一連の動作を実現している。 音声認識・合成ともに、コンピュータを利用した研究は1950年

                                                                            自然な音声作る「WaveNet」の衝撃 なぜ機械は人と話せるようになったのか
                                                                          • 婚活の会話、ロボットが“代行” 実際にカップル成立も

                                                                            「ご趣味はなんですか?」「日本文学が好きです」「わあ、私もなんです。偶然ですね」──合コンや婚活パーティーでありそうな自己紹介のワンシーンだが、話しているのは人間ではなく、机の上に置かれたロボットだ。 一般社団法人CiP協議会は、2月9日に開催した「ロボットが会話を代行する婚活パーティー in 竹芝」の実施結果を12日に報告した。参加者28人から、計4組のカップルが誕生したという。 CiP協議会は、竹芝地区に「コンテンツ×デジタル」産業の拠点形成を目指し活動する団体。竹芝地区でテクノロジーを活用した新しいコンテンツを生み出していく一貫として、ロボット婚活パーティーを開いた。 なぜロボットで自己紹介? 日本の生涯未婚率が上がっている背景として、「多くの日本人が、自身のコミュニケーションに苦手意識を持つなどの理由があることから、コミュニケーションの起点にロボットを活用する本企画の開催を決めた」

                                                                              婚活の会話、ロボットが“代行” 実際にカップル成立も
                                                                            • Google、Android 2.1搭載の“スーパーフォン”「Nexus One」を発表

                                                                              Googleが1月5日(現地時間)、HTCと緊密に協力し、Android OS 2.1の持てる性能を最大限に引き出した、スマートフォンのさらに上を行く自称“スーパーフォン”「Nexus One」を発表した。 かねてからうわさがあったとおり、端末はGoogleがWebサイト(http://www.google.com/phone/)で即日販売を開始。米国、英国、シンガポール、香港から購入できる。米国ではSIMロックフリー版を529ドル、T-Mobileとの2年契約付きのものは179ドルで販売する。購入にはGoogleアカウントとGoogle Checkoutのアカウントが必要だ。なお日本からはまだ購入できない。 Snapdragon搭載、3.7インチ有機ELのタッチパネルディスプレイを装備 Nexus Oneは、HTCがデザインや製造を担当し、Googleが販売するAndroid OS 2.

                                                                                Google、Android 2.1搭載の“スーパーフォン”「Nexus One」を発表
                                                                              • 第3回 ベイジアンフィルタを実装してみよう | gihyo.jp

                                                                                さらに詳細な利用方法が知りたい方は、Yahoo!デベロッパーズネットワークのマニュアルを参照してください。 ベイジアンフィルタの実装 ここから本格的にベイジアンフィルタの実装に入っていきます。 その前に、まずは先程のリスト1のコードを利用して入力された文章をわかち書きし、単語の集合を返す関数を作成しnaivebayes.pyとして保存しましょう。こちらも先程のmorphological.pyと同様にutf-8で保存してください。 リスト2 文章の分割をする関数(naivebayes.py) # -*- coding: utf-8 -*- import math import sys #yahoo!形態素解析 import morphological def getwords(doc): words = [s.lower() for s in morphological.split(doc)

                                                                                  第3回 ベイジアンフィルタを実装してみよう | gihyo.jp
                                                                                • 「エンジニアに無理と怒られた」――熱烈“攻殻”ファンが思い込めた「1/8タチコマ」開発の舞台裏

                                                                                  「うちの社内では、アニメ好きの社員の中で“必修アニメ”がある。その1つが『攻殻機動隊 S.A.C.』。そんなアニメに登場する『タチコマ』を作ることになった。ただの玩具を作るだけなら、決まった言葉だけを覚えさせればいい。しかしアニメの中のタチコマなら、どんな言葉にも何かしら返答するはず。私たちは玩具ではなく、タチコマを作りたかった」 Cerevoが開発した「うごく、しゃべる、並列化する。1/8タチコマ」(c)士郎正宗・Production I.G/講談社・攻殻機動隊製作委員会 (c)Cerevo.Inc そう話すのは、家電ベンチャーCerevoの海田裕二郎プロダクトマネージャー。海田さん率いる6人のプロジェクトチームは、約1年半の歳月をかけ、アニメ「攻殻機動隊 S.A.C.」シリーズに登場する4足歩行ロボット「タチコマ」を約8分の1のサイズで再現した(関連記事)。 製品名は「うごく、しゃべる

                                                                                    「エンジニアに無理と怒られた」――熱烈“攻殻”ファンが思い込めた「1/8タチコマ」開発の舞台裏