並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 26177件

新着順 人気順

speechの検索結果161 - 200 件 / 26177件

  • 「イスラエルを非難した学生の顔」を印刷したトラックでハーバード大学周辺を走る晒し行為が発生

    ハーバード大学の学生団体が「パレスチナ周辺で発生している暴力の責任はイスラエル政府にある」とする声明を発表した結果、声明に賛同した学生の顔写真を印刷したトラックがキャンパス周辺を走行する事態が発生しました。学生団体の声明に対しては複数の教員が否定的な意見を投げかけているほか、声明に賛同する学生の個人情報がインターネット上に公開される事態も発生しています。 As Students Face Retaliation for Israel Statement, a ‘Doxxing Truck’ Displaying Students’ Faces Comes to Harvard’s Campus | News | The Harvard Crimson https://www.thecrimson.com/article/2023/10/12/doxxing-truck-students-i

      「イスラエルを非難した学生の顔」を印刷したトラックでハーバード大学周辺を走る晒し行為が発生
    • Microsoftがわずか数秒のサンプルから会話や歌声を再現できる音声合成AI「NaturalSpeech 2」を発表

      2023年4月18日にMicrosoft Research AsiaとMicrosoft Azureのカイ・シェン氏らの研究チームが拡散モデルを使用した小品質の音声合成システム(TTS)である「NaturalSpeech 2」を発表しました。NaturalSpeech 2では数秒の短い音声サンプルを利用する事で、人の声だけでなく歌声までも忠実にシミュレートすることが可能になっています。 [2304.09116] NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers https://doi.org/10.48550/arXiv.2304.09116 NaturalSpeech 2 https://speechresearch.github.io/na

        Microsoftがわずか数秒のサンプルから会話や歌声を再現できる音声合成AI「NaturalSpeech 2」を発表
      • 【2024年】AWS全サービスまとめ | DevelopersIO

        こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。 こんにちは。サービス開発室の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個 です。 まとめるにあ

          【2024年】AWS全サービスまとめ | DevelopersIO
        • Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog

          こんにちは! 画像システムグループで機械学習エンジニアをやっている小島です。 この記事では、今ホットな「Zero-shot Learning」と「Vision & Language」に関する最新情報を、CLIPという研究を起点として網羅的にサーベイをしていきます。このために論文1000本に目を通し、70本程度を記事にしました。 Zero-shotやVision & Languageは、Stable Diffusionに代表される画像生成AIとも密接に関連している技術です。この記事を通して、Vision & Languageの奥深い世界を体感できるでしょう。 注意事項 この記事は非常に長いため、全部読むのに1時間以上かかる可能性があるので、休憩を取りながら、または必要な部分だけ読んでください。各セクションを個別に読んでも問題ありません。 また、文章中の画像は、特別な記載がない限り、引用元の論

            Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog
          • Pythonで検索エンジンをゼロから作って学んだこと Part.2

            2019年9月16、17日、日本最大のPythonの祭典である「PyCon JP 2019」が開催されました。「Python New Era」をキャッチコピーに、日本だけでなく世界各地からPythonエンジニアたちが一堂に会し、さまざまな知見を共有します。プレゼンテーション「入門 自作検索エンジン」に登壇したのは加藤遼氏。講演資料はこちら シンプルな検索エンジンを作る 加藤遼 氏:ここからは実際に事例を踏まえながら、どういうものを作っていくかの実装の話をしていきます。 実際に作っていく検索エンジンは、これです。これは「PyconSearch」という、今年のPyConのセッションを検索できるもので、わりと便利なサイトです。これを実際に作っていきながらどういうことをやっていくかという話を進めていきます。 まずは要件から決めていきましょう。「PyConJPのトークを検索できる」ことが目的ですが、

              Pythonで検索エンジンをゼロから作って学んだこと Part.2
            • Chrome 89で音声からリアルタイムに字幕を生成する「自動字幕起こし」機能が追加されたので使ってみた

              2021年3月3日にリリースされたデスクトップ版Google Chrome 89の安定版で、ブラウザ上で再生される音声やムービーからリアルタイムで字幕を生成する「自動字幕起こし」機能が追加されたことが明らかになったので、実際にどんな感じなのか使ってみました。 Google's Live Caption feature rolling out for Chrome desktop users https://www.xda-developers.com/google-chrome-live-caption-feature-rolls-out-transcribe-speech-videos/ Google's Live Caption is now rolling out to Chrome on desktop | Android Central https://www.androidce

                Chrome 89で音声からリアルタイムに字幕を生成する「自動字幕起こし」機能が追加されたので使ってみた
              • 英語のリエゾンとは? 5つ音の変化と練習方法を解説|ベルリッツ

                リスニングの勉強を進める上で、「ネイティブのスピードについていけない」「ネイティブのように発音できず自分の英語が通じない」と悩んだことはありませんか? その悩みは、英語の「リエゾン」を学ぶことで解決できます。 リエゾン英語の勉強のルールを学ぶことで、今まで聞き取れなかった英語独自の音が聞こえるようになったり、発音が上達したりと大きなメリットがあります。 リエゾンをマスターして、リスニング力やスピーキング力を鍛えていきませんか? 本記事では、リエゾンとは何か? リエゾンのルールと音の変化にフォーカスして解説します。 英語のリエゾン (liaison) とは、子音と母音、単語と単語が連結するなどして音が変化することを指します。 もともとリエゾンはフランス語で「連結」を意味し、英語では “linking(リンキング)” や “connected speech(コネクテッドスピーチ)” と呼ばれて

                • Aphex Twin | ele-king

                  最近父を亡くしたというエイフェックス・ツインことリチャード・D・ジェイムスが、どうやら昨今の状況に危機感を覚えたようで、めずらしく警告を発している。RA の報じるところによれば、当初 SoundCloud の user18081971 のプロフィール欄にメッセージがポストされ、一度削除された後、現在は Reddit に再掲載されている。とても良いことを言っているので、以下に試訳を掲げておきます。 現在悲しみに暮れている方々には心からお悔やみ申し上げます。ぼくは最近父を亡くしました。本当につらかったけど、COVID-19 とは無関係でした。 もし COVID-19 の統計を目にすることがあったら、その数値が COVID-19 “が原因で” 亡くなった人たちを反映しているのかどうか、ちゃんと確認しなきゃいけないよ。どうか忘れないでほしい。 もし警察が、きちんとした法もないような状態で政府の要望

                    Aphex Twin | ele-king
                  • Neural Audio Codec を用いた大規模配信文字起こしシステムの構築 - Mirrativ Tech Blog

                    こんにちは ハタ です。 最近Mirrativ上に構築した配信の文字起こしシステムを紹介したいなと思います 音声からの文字起こしは、各社SaaSでAPI提供されているものがあると思いますが、今回紹介するものはセルフホスト型(自前のGPUマシンを使う)になります 構築していく上で色々試行錯誤したのでそれが紹介できればなと思っています どんなものを作ったか 前提知識: 配信基盤 前提知識: Unix Domain Socket Live Recorder Archiver DS Filter VAD Filter NAC / Compress Transcriber NAC / Decompress Speach To Text コンテナイメージ まとめ We are hiring! どんなものを作ったか 今回作ったものは Mirrativで配信されるすべての音声を対象に文字起こしを行う シス

                      Neural Audio Codec を用いた大規模配信文字起こしシステムの構築 - Mirrativ Tech Blog
                    • 【個人開発】動画の字幕・テロップ入れをAIで自動化するWebサービスを作りました - Qiita

                      こんにちは、2z(Twitter: @2zn01 )です。 趣味でWebサービスの個人開発をしており、以下のサービスを開発・運営しています! ■AIメーカー https://aimaker.io/ → 誰でも簡単にAIを作れるサービス ■ツイレポ https://twirepo.com/ → キーワードで話題のツイートを自動で収集したり、自動でリツイート・フォローができるサービス ■文字起こすくん https://text.aimaker.io/recognize-bot/ → 画像、音声、動画をアップするだけで簡単に文字起こし・書き起こしできるサービス 今回作ったもの 動画をアップロードするだけで、動画内の音声を認識して文字起こしを行い、自動で動画に字幕・テロップをつけてくれる「テロップメーカー」というサービスをリリースしました! ■URL https://text.aimaker.io

                        【個人開発】動画の字幕・テロップ入れをAIで自動化するWebサービスを作りました - Qiita
                      • データ分析はサービス競争力にどう貢献できるか? 大量のデータを扱うLINEのデータサイエンティストの役割

                        2020年6月24日に、LINEの「Data Labs」のオンライン採用説明会が開催されました。Data Labsは、データ分析や機械学習の活用によって、LINEのすべてのサービスの価値向上を目指す、データの分析・研究を行う専門の開発組織です。説明会の前半では、Data Labs室長の池邉智洋氏から組織についての説明があった後、Data Science1チーム/マネージャーの牟田博和氏よりデータサイエンティストの役割と仕事内容についての紹介が行われました。2記事目はこちら LINEのData Science and Engineeringセンターについて 池邉智洋氏:よろしくお願いいたします。Data Labsの室長を担当しております執行役員の池邉と申します。 本日オンラインではありますが、大変多くの方にご視聴いただいているようで、本当にありがとうございます。私からはまずData Labs

                          データ分析はサービス競争力にどう貢献できるか? 大量のデータを扱うLINEのデータサイエンティストの役割
                        • 自動文字起こしサービス | Notta

                          It seems the website language does not match your browser settings. We recommend visiting our English site that allows you to check content, services, and prices in a preferred language.

                            自動文字起こしサービス | Notta
                          • WindowsはもちろんMacでも使え、DAW上のVSTiとしても動作するCeVIO Pro (仮)がα版として無償配布開始|DTMステーション

                            CeVIO Creative StudioやCeVIO AIなどのエンジン部分を開発してきた株式会社テクノスピーチが2月24日、新たな歌声合成ソフト、「CeVIO Pro (仮)」(チェビオプロ)を発表するとともに、正式版リリースへの準備段階としてα版の無償配布を開始しました。このCeVIO Pro (仮)は、WindowsだけでなくMacでも動作するソフトであり、スタンドアロンで動作するとともに、WindowsおよびMacのVSTiのプラグインとしても動作するものとなっています。 またCeVIO Pro (仮)にはソングエディタともに、デフォルトボイスライブラリとして女性シンガーである「知声」(読み:ちせい、英語表記:Chis-A)が付属。ここで合成された歌声の波形データは個人/法人、商用/非商用を問わず、原則、無料で利用することが可能となっています。実際どんなものなのか、試してみた一方

                              WindowsはもちろんMacでも使え、DAW上のVSTiとしても動作するCeVIO Pro (仮)がα版として無償配布開始|DTMステーション
                            • 環境運動から共産主義に"転向"して、COPから追放されたグレタ・トゥンベリ

                              メディアのアイドルである環境運動家のグレタ・トゥンベリ。今年ももてはやされたが、なぜかCOP26の国際会議場には呼ばれなかった(開催地:グラスゴーでのデモに参加)。一体なぜだろうか?彼女のスピーチをよく聞くと、その理由が分かってくる。 目次 メディアの寵児だったが 環境問題と共産主義の親和性 メディアの寵児だったが 今回のCOPでもスウェーデンの環境運動家のグレタ・トゥンベリがメディアでずいぶんと報道された。例えば産経新聞の記事では以下の通り。 via THE SANKEI NEWSよりキャプチャー メディアの記事の論調は殆どどれも判で押したように「環境危機を訴えた」「大人は口先だけで行動が伴っていない」「グリーンウオッシュのPR合戦に過ぎない(注:グリーンウオッシュとは、グリーンとホワイトウオッシュを組み合わせた造語である。ホワイトウオッシュとは白い色を塗ることで、転じてうわべだけを飾る

                                環境運動から共産主義に"転向"して、COPから追放されたグレタ・トゥンベリ
                              • New models and developer products announced at DevDay

                                GPT-4 Turbo with 128K context and lower prices, the new Assistants API, GPT-4 Turbo with Vision, DALL·E 3 API, and more. Today, we shared dozens of new additions and improvements, and reduced pricing across many parts of our platform. These include: New GPT-4 Turbo model that is more capable, cheaper and supports a 128K context windowNew Assistants API that makes it easier for developers to build

                                  New models and developer products announced at DevDay
                                • 開会式で話題となった"長いスピーチ"、どうしてそう感じたのかをスピーチライターがガチ分析してみた

                                  千葉 佳織 / kaeka スピーチライター @kaolly13 オリンピック開会式のバッハ会長のスピーチ、「長かった」との感想を多く目にしました。 みなさんの違和感の正体が、スピーチのどのような技術に由来するのか、スピーチライターの視点で分析してみました。 明日から使えるスピーチ・プレゼンのポイントも添えています。 pic.twitter.com/eTV12Q3fRh 2021-07-26 19:40:32

                                    開会式で話題となった"長いスピーチ"、どうしてそう感じたのかをスピーチライターがガチ分析してみた
                                  • ElasticsearchとKibela APIを使ってSlackでのCSお問い合わせ対応業務を改善した話 - BASEプロダクトチームブログ

                                    この記事はBASE Advent Calendar 2020の11日目の記事です。 devblog.thebase.in BASE株式会社 Data Strategy チームの@tawamuraです。 BASEではオーナーの皆様や購入者様のお問い合わせに対して、Customer Supportチームが主となって対応をしています。その中でもいくつかの技術的なお問い合わせに対しては、以下のようにSlackの専用チャンネルを通して開発エンジニアに質問を投げて回答を作成することになっています。 CSチームから調査を依頼されるお問い合わせの例 これらのCS問い合わせ対応は日々いくつも発生しており、CSお問い合わせ対応を当番制にして運用してみた話 でもあるように週ごとに持ち回り制で各部門のエンジニアが対応しているのですが、どうしても調査や対応に時間が取られてしまうという問題が発生していました。 dev

                                      ElasticsearchとKibela APIを使ってSlackでのCSお問い合わせ対応業務を改善した話 - BASEプロダクトチームブログ
                                    • Google Cloud Japan Customer Engineer Advent Calendar 2019

                                      https://medium.com/google-cloud-jp から派生したGoogle Cloud Japan の Customer Engineer (CE) が 書く Advent Calendar 2019 です。CE 達が是非紹介したい機能、いままで培ってきたノウハウ、知っておくと便利なTipsなどを公開予定です。 google-cloud-jp はGoogle Cloud Platform 製品などに関連するコミュニティが記載したテクニカル記事集です。掲載された意見はすべて著者個人のものであり、必ずしも Google のものを反映するものではありません。 12/1Kubernetes とGCPの世界をつなぐアクセス管理のはなし (Hiroki Tanaka)12/2Apache Hadoop のデータを BigQuery で分析するための移行手順 ( Keiji Yosh

                                        Google Cloud Japan Customer Engineer Advent Calendar 2019
                                      • 呉座・オープンレター事件の対立軸――キャンセルカルチャーだったのか?/田中辰雄 - SYNODOS

                                        1.はじめに 2021年、大学関係者の間で呉座・オープンレター事件が話題になった。本稿はこの事件で何が対立軸だったのかを、人々へのアンケート調査の形で調べることを目的としている。 事件のあらましを簡単に述べる。ベストセラー『応仁の乱』の作者である歴史学者、呉座勇一氏が鍵付きツイッターアカウントで、ある女性研究者を揶揄あるいは誹謗していることが明るみに出て、炎上する。呉座氏は謝罪し、NHKの大河ドラマの歴史考証役を降板した。その後、有識者よりこの事件を一般的な女性差別問題として広く世に問うオープンレターが出され、1300人もの学者らが署名する。半年後に呉座氏の所属機関は予定されていた呉座氏の採用を取り消した。 この事件はいろいろな角度から議論が可能で、すでに多くの記事が書かれている。オープンレターが出るころまでは呉座批判一色であったが、採用取り消しで呉座氏への同情論が出るようになり、最近では

                                          呉座・オープンレター事件の対立軸――キャンセルカルチャーだったのか?/田中辰雄 - SYNODOS
                                        • TOEICの品詞問題が苦手な人が絶対覚えるべき知識まとめ! | 英語を仕事で使えるレベルに伸ばす!認定英語コーチアキトの0→1英語塾

                                            TOEICの品詞問題が苦手な人が絶対覚えるべき知識まとめ! | 英語を仕事で使えるレベルに伸ばす!認定英語コーチアキトの0→1英語塾
                                          • 協調フィルタリングとベクトル検索エンジンを利用した商品推薦精度改善の試み | メルカリエンジニアリング

                                            こんにちは、メルカリのレコメンドチームで ML Engineer をしている ML_Bear です。 以前の記事 [1] では、item2vecと商品メタデータを用いた、メルカリのホーム画面のレコメンド改善のお話をさせていただきました。今回は商品詳細画面でレコメンド改善を行ったお話をさせていただきます。商品詳細画面の例は図1の通りです。ユーザーはアイテムの詳細な説明を見たいときにこの画面に来訪するため、同様の商品を推薦する自然な接点として非常に重要です。 まず、私たちが商品詳細画面で行った改善の概要を示します。各部の詳細については次節以降で詳しく触れます。 日本有数の大規模ECサービスにおいてベクトル検索ベースの商品推薦アルゴリズムを実装し、推薦精度の大幅な改善を実現しました。 協調フィルタリングとニューラルネットワーク (以下、NN) を利用した商品推薦アルゴリズムを構築し、コールドスタ

                                              協調フィルタリングとベクトル検索エンジンを利用した商品推薦精度改善の試み | メルカリエンジニアリング
                                            • 科学における「キャンセルカルチャー」論争 - わが忘れなば

                                              最近、英語圏において物理化学系の学術誌に発表されたあるエッセイを起点として、こんな専門誌を舞台に意外な、と思うほどの盛り上がりを見せた論争が起きた。それは、「キャンセルカルチャー」を巡るものなのだが、日本語圏ではこの論争についてほとんど紹介されていないようなので、今回の記事で簡単に紹介してみたい。 アンナ・クリロフ (Anna I. Krylov) が2021 年にアメリカ化学会が発行する物理化学の学術誌 The Journal of Physical Chemistry Letters に発表したエッセイ「科学を政治化することの危険 The Peril of Politicizing Science」*1は、左派的なイデオロギーが今日の科学界において検閲として働いていると指摘し、大きな評判を呼んだ。これに対して、同年フィリップ・ボール(Philip Ball)は、同誌において「科学はそも

                                                科学における「キャンセルカルチャー」論争 - わが忘れなば
                                              • オリパラの音楽担当になった小山田圭吾の悪評をredditに投稿しようと考えてる。

                                                このグーグル翻訳を駆使した英文で大丈夫か教えてほしい。 (増田の仕様のせいで空行が入らないので読みにくいかも) 追記:ブコメですでに記事があるという指摘があったので、いまさら投稿しなくてもいいか。 なにかに流用したい人がいるかわからんが好きに使ってくれていい。 A creative member of the Tokyo Olympics opening ceremony music was found to have been a fierce bullying assailant in the past. Keigo Oyamada (born 1969) became a creative member of the Tokyo Olympics opening ceremony music. In an interview with a music magazine in the

                                                  オリパラの音楽担当になった小山田圭吾の悪評をredditに投稿しようと考えてる。
                                                • FOMO - Wikipedia

                                                  今やスマートフォンは常時、公私にわたりネットワークにつながり続けることを可能にした。こうなると「何か見逃しているものはないか」とひっきりなしに更新やメッセージをチェックせずにいられなくなることもある[1]。 FOMO(英: fear of missing out、フォーモ、取り残されることへの恐れ)とは、「自分が居ない間に他人が有益な体験をしているかもしれない」、と言う不安に襲われることを指す言葉である[2]。 また、「自分が知らない間に何か楽しいことがあったのではないか」、「大きなニュースを見逃しているのではないか」と気になって落ち着かない状態も指すことから、 「見逃しの恐怖」とも言う。社会的関係がもたらすこの不安は[3]、「他人がやっている事と絶え間なくつながっていたい欲求」と言う点で特徴づけられる[2]。 FOMOはまた「後悔に対する恐れ」とも言え[4]、それは社会関係、画期的体験、

                                                    FOMO - Wikipedia
                                                  • 思考をコンピューターにリアルタイムで出力することにFacebookが成功

                                                    「思考をコンピューターで読み取る」というSFのような技術についての研究が、近年は実際に進んでいます。そんな中、2021年7月14日付けでFacebookが新たに、「脳卒中によって話す能力を失った人が、考えをコンピューターに出力する技術」を開発したと発表しました。 BCI milestone: New research from UCSF with support from Facebook shows the potential of brain-computer interfaces for restoring speech communication https://tech.fb.com/bci-milestone-new-research-from-ucsf-with-support-from-facebook-shows-the-potential-of-brain-comput

                                                      思考をコンピューターにリアルタイムで出力することにFacebookが成功
                                                    • DeepLearningについて、最近作ったもの、書いたもの、勉強したこと

                                                      こんにちは!逆瀬川 ( @gyakuse ) です。 今日は最近作ったもの、書いたもの、勉強したことを備忘録的にまとめていきたいと思います。 なぜ書くのか、なぜ学ぶのか DeepLearningの普及以降、Attention Is All You Need以降、Hugging Faceでの民主化以降、そしてStable DiffusionやChatGPTの登場以降、どんどんAGIへの距離が短くなってきています。未来は想定より大きく変わりそうです。どったんばったん大騒ぎのときはみんなが分かっておくべきことは効率的に共有すべきで、そのために書いています。書くためには論文等を読む必要があります。そしてそのためには基礎からしっかり学ぶことが大事です。次の一歩をみんなで歩んでいくために、学び、書いています。 間違ったことを言うかもしれませんが、それでも誰かのためになれば嬉しいです。あと、個人的にはこ

                                                        DeepLearningについて、最近作ったもの、書いたもの、勉強したこと
                                                      • 英語学習のためのデジタル環境整備

                                                        このブログの主目的は、(1)英語教育について根本的に考え直すこと、(2)英語教育現場の豊かな知恵をできるだけ言語化すること、です。このブログでの見解などは柳瀬個人のものであり、必ずしも柳瀬が所属する組織や団体などのものではありません。ブログ管理での技術的理由から「英語教育の哲学的探究2」よりこのブログに移行しました。 なお私が所属する京都大学・国際高等教育院・附属国際学術言語教育センター・英語教育部門のウェブサイトでは、学生さんの自律的な英語学習・使用を支援するための情報を多く提供しています。https://www.i-arrc.k.kyoto-u.ac.jp/english_jp 以下に紹介するのは、私が英語を学んだり使ったりするために使用しているデジタル環境(ウェブサイトやアプリ)の一部です。デジタル環境がそろうと英語を学び・使うことが楽しくなり、ますます英語に習熟することができます。

                                                        • 無償入手可能な音声コーパス/音声データベースの一覧 - Qiita

                                                          無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス

                                                            無償入手可能な音声コーパス/音声データベースの一覧 - Qiita
                                                          • 脳の信号をほぼ100%の精度で音声に変換するブレイン・コンピューター・インターフェースが登場

                                                            脳の活動をテキストに変換して音声として読み上げることで、これまでで最も正確な97.5%の精度で思考を言葉にすることができるブレイン・コンピューター・インターフェース(BCI)が発表されました。この技術は、全身の筋肉の衰えにより言葉を話すことが難しくなる筋萎縮性側索硬化症(ALS)の人が、コミュニケーション能力を取り戻すのに役立つと期待されています。 An Accurate and Rapidly Calibrating Speech Neuroprosthesis | New England Journal of Medicine https://www.nejm.org/doi/full/10.1056/NEJMoa2314132 New brain-computer interface allows man with ALS to ‘speak’ again https://healt

                                                              脳の信号をほぼ100%の精度で音声に変換するブレイン・コンピューター・インターフェースが登場
                                                            • NVIDIAが基調講演に使った「キッチンでしゃべるCEOの映像」が自社製ツールで作ったCGであることが明らかに

                                                              NVIDIAが2021年4月に行った基調講演について、ジェン・スン・ファンCEOが登壇するシーンの一部や撮影現場として用いられたキッチンなどが、3Dデザインコラボレーションプラットフォーム「NVIDIA Omniverse」で作成されたCGだったと明かしました。 NVIDIA Omniverse Changes the Way Industries Collaborate | NVIDIA Blog https://blogs.nvidia.com/blog/2021/08/11/omniverse-making-of-gtc/ Nvidia Reveals Its CEO Was Computer Generated in Keynote Speech https://www.vice.com/en/article/88nbpa/nvidia-reveals-its-ceo-was-co

                                                                NVIDIAが基調講演に使った「キッチンでしゃべるCEOの映像」が自社製ツールで作ったCGであることが明らかに
                                                              • PyCon JP 2019で見たセッションの聴講記録20個分 / 資料・動画・関連リンクなど - フリーランチ食べたい

                                                                2019年9月16日/17日に開催されたPyCon JP 2019で自分が直接/YouTubeで聴講したセッションについてのまとめです。主に下記の内容を書いています。 スピーカーURL 配信動画 スライド 発表内で出てきたライブラリなどのURL 自分の感想 「あのセッションで話していたライブラリなんだっけ」と思い出したい方やざっくり内容が知りたい方に読んでいただければ幸いです。PyCon JPに自分も発表者としても参加し、スタッフとして参加し、Webサイトの開発もしたので、それについては改めて書きたいと思います。 pycon.jp PythonとAutoML / 芝田 将 スピーカー: https://twitter.com/c_bata_ 動画: https://www.youtube.com/watch?v=Whkwu46DgBs スライド: https://www.slideshar

                                                                  PyCon JP 2019で見たセッションの聴講記録20個分 / 資料・動画・関連リンクなど - フリーランチ食べたい
                                                                • ElevenLabs: Free Text to Speech & AI Voice Generator | ElevenLabs

                                                                  Create the most realistic speech with our AI audio platformPioneering research in Text to Speech, AI Voice Generator, and more

                                                                    ElevenLabs: Free Text to Speech & AI Voice Generator | ElevenLabs
                                                                  • ウェブ上でネイティブアプリ並の機能を実現するPWAで利用できる機能をまとめてテストできるサイト「What PWA Can Do Today」

                                                                    プログレッシブウェブアプリ(PWA)は、ウェブ上でネイティブアプリと同様の使い勝手を実現するための仕組みで、2015年に概念が提唱されて以来、徐々に機能が増加しています。「What PWA Can Do Today」は、PWAで利用できるさまざまな機能について実際に試せるサイトです。 What PWA Can Do Today https://whatpwacando.today/ サイトにアクセスするとこんな感じ。最初に「Install to home screen」をクリックし、サイトをアプリとしてインストールします。 確認画面が表示されるので「インストール」をクリック。 デスクトップにアプリが追加されました。初回は自動で起動しますが、次回以降はこのアイコンをダブルクリックして起動します。 アプリを起動すると、さまざまな機能をテストできる画面が表示されました。「Media captur

                                                                      ウェブ上でネイティブアプリ並の機能を実現するPWAで利用できる機能をまとめてテストできるサイト「What PWA Can Do Today」
                                                                    • 「テックブログを書くハードルを少しでも下げたい」 OpenAIのAPIを使った「技術記事作成アプリ」の構想と実装

                                                                      毎回1つのテーマに絞り、テーマに対してのLTを行うTechDLT。「ChatGPT」をテーマにした「ChatGPTについてLT! TechDLT Vol.10」に登壇したのは、ほりゆう氏。OpenAI APIを用いた、技術ブログ記事作成アプリの開発について発表しました。 登壇者の自己紹介 ほりゆう氏(以下、ほりゆう):みなさま、本日はお時間をいただき、ありがとうございます。主催者のみなさま、参加者のみなさま、どうぞよろしくお願いします。「OpenAI APIを用いた技術ブログ記事作成アプリを開発した話」を紹介いたします。 まずは自己紹介からさせてください。私はエンジニアをしている堀越優希、ほりゆうと申します。もともと文系で、高等学校の国語科の教員をしていました。現在27歳です。エンジニアになったのは2020年の7月なので、今3年目くらいです。 ふだんはRailsやReactで開発をしていま

                                                                        「テックブログを書くハードルを少しでも下げたい」 OpenAIのAPIを使った「技術記事作成アプリ」の構想と実装
                                                                      • GitHub Copilot Chat 舐めていた - ちなみに

                                                                        marketplace.visualstudio.com GitHub Copilot と直接会話できる Copilot Chat 、皆さん使ってますか? 私は最近まともに使い始めました。 Copilot と言えば補完だけだと思っている人、以前ちょっとだけ触れて使えないと思った人(僕です)、いまのバージョンをもう一度触ってみてください、めっちゃ便利になっている。 www.youtube.com この動画が出来ることを追いかけるのに良さそうなので見てください。 ベースモデルがGPT-4に変わったりとかいろいろ変化はありますが、便利なのは Participant や Context の概念が入ったことだと思います。 Participantは @workspace みたいなやつで、Chat-GPTにおける GPTs みたいなやつ。例えば @workspace ならいま開いているプロジェクトについ

                                                                          GitHub Copilot Chat 舐めていた - ちなみに
                                                                        • DeNA目線で見る 音声変換の最先端 - Qiita

                                                                          (2021年5月13日追記)七声ニーナをリリースしました。DeNAの音声変換をご体験ください。 DeNAのAIシステム部、音声チームの豆谷と申します。私は2020年10月に新卒入社しましたが、2021年の新卒組として記事を書きます。 私は今まで音声合成や距離学習の研究をしてきて、音声変換(voice conversion;VC)については入社後キャッチアップしています。本記事では、DeNAの音声チームが注目する最先端の音声変換技術を紹介し、ユーザの喜びと驚きを生み出したいDeNA視点を交えながら解説します。 想定する読者は、音声変換に興味を持つ方、音声技術を生かして新たなエンタメ作りに挑戦したい方です。特に、 音声変換に関心がある学生がサクッと論文レベルで最先端の音声変換を把握できるようなお得な記事で 読者の「音声変換による新しいエンタメ作りに向けた研究開発の一歩」になる ように努めます。

                                                                            DeNA目線で見る 音声変換の最先端 - Qiita
                                                                          • カズオ・イシグロのキャンセル・カルチャー批判 - himaginary’s diary

                                                                            御田寺圭(白饅頭)氏の現代ビジネス記事が物議を醸している。同記事で白饅頭氏は、「リベラルは多様性を反映することを心掛けるべき」という趣旨のカズオ・イシグロの言を冒頭で引用した上で、リベラルにおける画一的な価値観への同調圧力を槍玉に挙げた。それに対し、記事を問題視する人たちは、そうしたリベラル批判をイシグロは口にしておらず、白饅頭氏はイシグロの発言を曲解している、と言う。 確かに、例えばこちらの白饅頭氏批判記事が指摘するように、白饅頭氏が引用した東洋経済のイシグロのインタビュー記事では、「キャンセルカルチャー」的なものへの懸念や言及は表明されていない。しかし実は、少し前のBBC記事でイシグロは、そうした懸念を明確に示している*1。この記事はBBCのインタビュー番組を基にしているが、こちらのテレグラフ記事では番組におけるイシグロの言葉がより長く引用されているので、以下に前半部分を紹介してみる。

                                                                              カズオ・イシグロのキャンセル・カルチャー批判 - himaginary’s diary
                                                                            • GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

                                                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                                GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
                                                                              • Google Cloud Speech API vs. Amazon Transcribe - Qiita

                                                                                文字起こしAPIガチンコバトル ググってざっと見れた範囲の「文字起こしAPI比較してみた」系記事では、数行(もしくは数分)レベルの非常に短い文字起こしを行いgood/badを述べているものが多いです。もしくはニュース動画のような"クリアすぎる音源"に対して行っているものも多いです。Amazon Transcribeについてバズっていたブログでも、英語での文字起こしで精度が高い話をしています。自然言語処理分野では英語の精度が高いのは知られているところですが日本語だとどうかというところが気になるところです。 自分が知りたいのは、 - 日本語の音源 - Podcastのように素人収録されたある程度ノイズが含まれた音源 - 1hくらいの長尺音源 - 複数人がクロストークしている音源 というような特徴を持った音声データに対してAPIだけでどこまで戦えるか(文字起こしできるか)だったので、いろいろ検証

                                                                                  Google Cloud Speech API vs. Amazon Transcribe - Qiita
                                                                                • 「シーライオニング」と「ヌルヌルうなぎ論法」|ショーンKY

                                                                                  シーライオニングとは何か 最近「シーライオニングって何」という話が話題になっていた。これについて本場アメリカでどのように定義されているかを確認するため、ハーバード大学バークマンセンター"Perspectives on Harmful Speech Online: a collection of essays" (2017)収録のAmy Johnson "The Multiple Harms of Sea Lions" からテンプレ会話例を見てみよう。 "Where is the evidence for that opinion?" ... "But doesn’t [x] really mean [y]?" ... "What about [other issue]—how do you explain that?" ... "What’s wrong with a polite que

                                                                                    「シーライオニング」と「ヌルヌルうなぎ論法」|ショーンKY