  • これは便利! HTMLはdiv要素一つ、あとはCSSをコピペするだけで100種類のツールチップを簡単に実装できる -CSS Tooltips & Speech Bubbles

    HTMLはdiv要素一つだけ、あとはCSSをコピペするだけで約100種類のールチップとスピーチバブルを実装できるCSS Tooltips & Speech Bubblesを紹介します。 このツールチップって実装すると、けっこう面倒ですよね。ベタ塗りのツールチップをはじめ、グラデーションの枠、しっぽの位置、しっぽの形状など、さまざまなデザインが、ここを見ればコピペで簡単に実装できます。 CSS Tooltips & Speech Bubbles CSS Tooltips & Speech Bubblesを作成したのは以前紹介したCSS Loaders(紹介記事)やCSS Ribbon Shapes(紹介記事)と同じ作者で、前回はCSSで実装されたローダーとリボンでしたが、今回は100種類のツールチップとスピーチバブルです。

    • 月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita

      何をした? Youtube上に公開されている動画の音声から、ディープラーニング技術を用いた音声合成ツールを構築しました。 今回対象にしたのは、バーチャルユーチューバー・にじさんじの委員長こと 月ノ美兎 さん(Youtubeチャンネル) です。 ※選出理由は、単純に私がYoutube上で一番推している方だからです。 成果 動画から抽出した音声と、音声を文章に起こしたテキストの組み合わせのデータセット約50分ぶんを教師データとして学習した結果 ※学習に必要なデータ量は最低でも1時間程度と言われているので、まだまだ足りていません… 月ノ美兎さんの音声合成ツールを作ってみた https://t.co/YVdWW9vREb via @YouTube — K2 (@K2ML2) May 29, 2020 発話内容が不明瞭な箇所がありますが、一応ご本人の声に近い音声を作成することができているかと思います

      • OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる

        OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Robust Speech Recognition via Large-Scale Weak Supervision – GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は

        • Speech-to-Text Webcam Overlay

          *認識結果が確定したタイミングで反映されます。テキストの編集・コピーも可能です。 **認識中にEnterキーを押すと,認識を止めて文を区切ることができます。日本語の場合は文末に句点が付与されます。 よくある質問・ソースコード: GitHub 音声認識は Web Speech API を利用しています。 カメラやマイクが機能しないとき → ページの再読み込みや,ブラウザの設定を確認してください: Chrome ヘルプ 「ログをダウンロード」でダウンロードされるファイルは,アクセスしているユーザーのブラウザで生成されています。

          • ElevenLabs: Free Text to Speech & AI Voice Generator | ElevenLabs

            Create the most realistic speech with our AI audio platformPioneering research in Text to Speech, AI Voice Generator, and more

            • GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

              • Google Cloud Speech API vs. Amazon Transcribe - Qiita

                文字起こしAPIガチンコバトル ググってざっと見れた範囲の「文字起こしAPI比較してみた」系記事では、数行(もしくは数分)レベルの非常に短い文字起こしを行いgood/badを述べているものが多いです。もしくはニュース動画のような"クリアすぎる音源"に対して行っているものも多いです。Amazon Transcribeについてバズっていたブログでも、英語での文字起こしで精度が高い話をしています。自然言語処理分野では英語の精度が高いのは知られているところですが日本語だとどうかというところが気になるところです。 自分が知りたいのは、 - 日本語の音源 - Podcastのように素人収録されたある程度ノイズが含まれた音源 - 1hくらいの長尺音源 - 複数人がクロストークしている音源 というような特徴を持った音声データに対してAPIだけでどこまで戦えるか(文字起こしできるか)だったので、いろいろ検証

                • Lyra: A New Very Low-Bitrate Codec for Speech Compression

                  Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

                  • 音声文字起こし技術で業務効率化: Google Text to Speech と OpenAI Whisper の活用 - STORES Product Blog

                    こんにちは、CTO室技術基盤グループの id:hogelog です。 STORES Product Blog でも多くの文字起こし記事がありますが、社内重要会議の文字起こしなど STORES 社内には様々なところで音声の文字起こし業務が存在します。そんな文字起こし業務ですが完全に人力で実施するのは作業コストがかなり高いです。今日はそのような業務を効率化する音声文字起こし技術とその変遷について紹介します。 Google Text to Speech の活用 以前 論より動くもの.fmを支える技術 〜Podcast初心者が使っているツール紹介〜 - STORES Product Blog でも紹介しましたが STORES 社内では Google Text to Speech が STORES 社内の様々な文字起こし業務に活用されてきました。 product.st.inc Google Text

                    • 録音した音声を一発でプロっぽく仕上げてくれる「Enhance Speech from Adobe」を使ってみたレビュー

                      Adobeが、AIを使った音声編集ウェブサービス「Adobe Podcast」を公開し、Podcast編集用ツール「Enhance Speech from Adobe」のデモを公開しています。Enhance Speech from Adobeを使えば、録音した音声が簡単にプロっぽく仕上がるとのことで、実際に使ってみました。 Enhance Speech from Adobe | Free AI filter for cleaning up spoken audio https://podcast.adobe.com/enhance このAdobe Podcastは2021年12月にProject Shestaという名前で開発が進められており、「語るべきストーリーを持つ人々のためのオーディオツール」と表現されています。 そして、AdobeがAdobe Podcastに含まれるツールとして「E

                      • スクウェア・エニックスによる、リアルな「架空言語」音声の作り方。Text-to-speechの機械学習モデルで生成した没入感の高いボイスコンテンツ【CEDEC+KYUSHU 2022】|ゲームメーカーズ

                        3年振りのリアル開催となった福岡で例年行われるゲーム開発者向けのカンファレンス「CEDEC+KYUSHU 2022」が、2022年11月12日(土)に開催されました。スクウェア・エニックス AI部のAIリサーチャー 森 友亮氏が登壇し、『意味が分からないからこそ、リアル ~「架空言語」音声合成による、没入感の高いボイス付きコンテンツの実現~』と題した講演が行われました。見慣れた母国語のテキストから聞いたことのない架空言語の音声を生成する手法について語られた本講演をレポートします。 TEXT / じく EDIT / 酒井 理恵

                        • Shinzo Abe: Japan ex-leader assassinated while giving speech

                          A man has admitted to shooting the former PM during a campaign event in the city of Nara, police say.

                          • 「CLOVA Note」は、なぜ高精度な音声認識を実現できるのか。Speechチームが語る開発秘話

                            LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2022年5月24日より、LINE株式会社は「会話を目で見る」ことができる無料のAI音声認識アプリ「CLOVA Note」のβ版の提供を開始しました。「CLOVA Note」は、LINE CLOVAのAI技術である「CLOVA Speech(音声認識)」の音声認識AIを活用して、録音した声をテキストに変換します。アプリをインストールし、スマートフォンやタブレットの録音ボタンを押すだけで、誰でも簡単に利用可能です。 「CLOVA Speech」は、近年注目を集めているSelf-Supervised Learning(自己教師あり学習)を利用した、最先端のEnd-to-End音声認識を採用しています。そして複数名の話者の区別を行う

                            • litagin/moe-speech · Datasets at Hugging Face

                              Not-For-All-Audiences This repository has been marked as containing sensitive content and may contain potentially harmful and sensitive information. View content

                              • Google Cloud Speech-to-Text APIをいろいろ調査してみる - OPTiM TECH BLOG

                                こんにちは、2020年新卒入社予定の山口です!修論と引越し準備とアルバイトで慌ただしい日々を過ごしています。今日は業務で触った、Google製API Google Cloud Speech-to-Text API について皆さんと共有できればと思います。 Google Cloud Speech-to-Text API とは APIを導入していく GCP側 PC側 実際に試してみる 認識モデルを変更してみる マルチチャンネルで試してみる ファイル形式・サンプリング周波数を比較してみる ナレーション音声(「本日は〜」の音声です。) 走れメロス_朗読 おわりに Google Cloud Speech-to-Text API とは Google Cloud Speech-to-Text API は名前の通り、音声データから文字起こしをするAPIです。この音声データは私たちが日頃聞いているような音声

                                • Data2vec: The first high-performance self-supervised algorithm that works for speech, vision, and text

                                  The first high-performance self-supervised algorithm that works for speech, vision, and text Self-supervised learning — where machines learn by directly observing the environment rather than being explicitly taught through labeled images, text, audio, and other data sources — has powered many significant recent advances in AI. But while people appear to learn in a similar way regardless of how the

                                  • 書評 「Speech!」 - shorebird 進化心理学中心の書評など

                                    SPEECH! How Language Made Us Human (English Edition) 作者:Prentis, SimonhogsaloftAmazon 本書は通訳兼翻訳家(何カ国語も扱うが特に日本語通訳としてのキャリアが長い)であるサイモン・プレンティスによる言語が使えることによりヒトは何を成し遂げてきたのかを論じる本になる.プレンティスは言語学や進化生物学の専門家というわけではないが,ドーキンスやピンカーが推薦文を寄せているというので読んでみたものだ.副題は「How Language Made Us Human」 冒頭には「ウクライナのための序文」がおかれている.これは本書脱稿後にロシアのウクライナ侵攻が生じたことを受けているもので,(実は本書ではその最終章で,言語により世界が平和に向かってきたが,それはなお未完であり,国連の改革が必要であることを論じている)どうして

                                    • CSS Generator for Tooltip Shapes & Speech Bubbles

                                      Get a CSS-only Tooltip Shape or Speech Bubble made with a single-element and customizable using CSS variables. <div class="tooltip">Your text content</div> Read the content of each tooltip to know which one to use. You can adjust the position of the tail using the range slider. Click the shape to copy the CSS

                                      • 合成音声を使ってboard(SaaS)のチュートリアル動画を制作した話(VOICEPEAKとGoogle Cloud Text-to-Speech) - ヴェルク - IT起業の記録

                                        boardというSaaSのチュートリアル動画を合成音声を使って制作しているので、その話を書いていきます。 個別相談会のデモとチュートリアル動画 以前書いた board(SaaS)個別相談会の変遷 の中で少し触れたのですが、2021年に、個別相談会の中でやっていたデモをベースに、チュートリアル動画を制作しました。 個別相談会では、業務の流れに沿って基本的な操作を一通り説明していくデモを行っていたのですが、途中に質問が挟まることも多く、そうすると、全体で30〜40分ほどかかってしまうことも多くありました。 個別相談会は1時間枠なので、そのうち40分をデモで使うのは、時間の使い方としてもったいないなという課題感がありました。また、弊社は営業など外向けに活動するメンバーがいないため個別相談会はすべて僕がやっており、個別相談会を開催できる回数にも限りがありました。 一方で「お試しする前にとりあえずデ

                                        • Elon Musk on Twitter: "The Twitter Files on free speech suppression soon to be published on Twitter itself. The public deserves to know what really happened …"

                                          The Twitter Files on free speech suppression soon to be published on Twitter itself. The public deserves to know what really happened …

                                          • ayaka|Speech Pathologist 🧠 on Twitter: "本当に。logical (論理的) の 対義語はemotional (感情的) ではなくて illogical (非論理的)。そもそもロジカルと感情的は二分される関係性にない。 感情を出しながら話す人の発言がロジックに欠けていると… https://t.co/HaKGX8QfDN"

                                            本当に。logical (論理的) の 対義語はemotional (感情的) ではなくて illogical (非論理的)。そもそもロジカルと感情的は二分される関係性にない。 感情を出しながら話す人の発言がロジックに欠けていると… https://t.co/HaKGX8QfDN

                                            • Speech Pathologist | Gregory Hills Medical Centre

                                              We have Certified Practising Speech Pathologist (CPSP) who is member of Speech Pathology Australia (MSPAA). She has experience working with children and adolescents with a variety of communication needs, including but not limited to: Receptive language Expressive language Literacy (reading, writing, spelling)

                                              • 「桃太郎デスマッチ」 ー Azure / AWS / GCP 学習済みAIサービスで「桃太郎」を Speech To Text してみた話 - Qiita

                                                「桃太郎デスマッチ」 ー Azure / AWS / GCP 学習済みAIサービスで「桃太郎」を Speech To Text してみた話AWSAzureCognitiveServicesSpeechToTextGoogleCloud はじめに 2019年1月23日(木) に Microsoft 主催の Ignite The Tour : Osaka に コミュニティ登壇させていただきました。 本記事は、上記イベントで発表させていただいた LT ( ライトニングトーク ) の内容を記事にしたものです。 ※また、本記事では、3大クラウドプラットフォーム ( Azure / AWS / GCP ) の Speech To Text サービスの性能を比較し、ランク付けをさせていただいておりますが、使用する音声の録音環境、録音デバイス、その他環境の差により、当記事の検証結果と異なる場合がございます

                                                • Universal Speech Enhancement With Score-based Diffusion

                                                  Universal Speech Enhancement With Score-based Diffusion This is the companion page of UNIVERSE, the universal speech enhancer described in the paper “Universal Speech Enhancement With Score-based Diffusion” by Joan Serrà, Santiago Pascual, Jordi Pons, R. Oguz Araz, and Davide Scaini. To access the paper, click here. In this page you will find basic information about the paper, three sets of speech

                                                  • Introducing speech-to-text, text-to-speech, and more for 1,100+ languages

                                                    Introducing speech-to-text, text-to-speech, and more for 1,100+ languages Equipping machines with the ability to recognize and produce speech can make information accessible to many more people, including those who rely entirely on voice to access information. However, producing good-quality machine learning models for these tasks requires large amounts of labeled data — in this case, many thousan

                                                    • GitHub - alphacep/vosk-api: Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node

                                                      Vosk is an offline open source speech recognition toolkit. It enables speech recognition for 20+ languages and dialects - English, Indian English, German, French, Spanish, Portuguese, Chinese, Russian, Turkish, Vietnamese, Italian, Dutch, Catalan, Arabic, Greek, Farsi, Filipino, Ukrainian, Kazakh, Swedish, Japanese, Esperanto, Hindi, Czech, Polish. More to come. Vosk models are small (50 Mb) but p

                                                      • GPTのAPIとText2Speechを組み合わせてAIとの会話体験を実装してみる | DevelopersIO

                                                        はじめに OpenAIのDevDayで発表されたText2SpeechのAPIを使ってみたいと思います。Text2Speechとは簡単にいうとテキストの読み上げ機能です。 日本語を読ませる場合、まだ少し英語訛りですが、なかなか人間っぽい発音を行います。 今回はこのText2SpeechのAPIを使って遊んでみたいと思います。 なにを作るのか? 先程記載したように、Text2Speechでは発話を行うことができます。 この特徴とGPTの会話ができる特性を組み合わせれば、会話っぽいことができるのではないかと思い実装してみました。 今回は試験的に実装を行うため、GPTには「動物博士」としてのロールを与えて動物の雑学を教えてもらいました。 完成形は以下のような動画になります。Text2Speechを利用しているため音声ONの状態での閲覧を推奨します。 発音が英語話者っぽくなっていることや漢字を稀に

                                                        • Speech Pathologist - Emerald Hills Medical Centre

                                                          We have Certified Practising Speech Pathologist (CPSP) who is member of Speech Pathology Australia (MSPAA). Our Speech Pathologist has experience working with children and adolescents with a variety of communication needs, including but not limited to: Receptive language Expressive language Speech Fluency (stuttering) Literacy (reading, writing, spelling) Social skills Autism Spectrum Disorder Dev

                                                          • GitHub - mozilla/TTS: :robot: Deep learning for Text to Speech (Discussion forum: https://discourse.mozilla.org/c/tts)

                                                            • VOSK Offline Speech Recognition API

                                                              РУС 中文 Vosk is a speech recognition toolkit. The best things in Vosk are: Supports 20+ languages and dialects - English, Indian English, German, French, Spanish, Portuguese, Chinese, Russian, Turkish, Vietnamese, Italian, Dutch, Catalan, Arabic, Greek, Farsi, Filipino, Ukrainian, Kazakh, Swedish, Japanese, Esperanto, Hindi, Czech, Polish, Uzbek, Korean, Breton, Gujarati, Tajik. More to come. Works

                                                              • Man arrested after explosion prompts evacuation of Japanese leader from speech venue | CNN

                                                                Japanese Prime Minister Fumio Kishida was evacuated unharmed Saturday after an explosion at a venue where he was giving an outdoor speech. Video footage released by Japan’s public broadcaster NHK showed members of the public fleeing and a man being arrested following the explosion. The footage showed multiple men, believed to be police officers, holding the suspect on the ground. Other pictures sh

                                                                • GitHub - 1heisuzuki/speech-to-text-webcam-overlay: Web Speech API で音声認識した結果の字幕をWebカメラ映像に重ねて表示するWebページ

                                                                  • 【個人開発】ChatGPT × Text-to-Speech(Google)で知育サービスを作ってみた

                                                                    概要 久しぶりに個人開発をしました! 娘が「コペル」という幼児教室に通っています。 その幼児教室で「コペルギネス」というゲームがあります。 ゲームの内容は下記のようなゲームになります。 50個の(食べ物・動物等)絵が描いてある表を見て、順に作ったお話を先生がお話してくれます。それを2回聞いて、覚えます。自分の手元にも同じカードが50個あるのでそれを子供が1人で回答用の表に順番通りに並べて貼っていくと言うゲームです。50個のカードのうち何個同じ場所に置けていたかを制限時間内に競います。正解した数が多かった人の勝ちです。 単語と単語にお話をつけ、繋がったストーリーでイメージすることで記憶しやすくする効果があるそうです。 このコペルギネスの練習をするとき、あらかじめ物語を作っておかないと、同じ絵を登場させてしまったり、答えを覚えていなかったりと結構大変なので、それを自動化するWebアプリを作りま

                                                                    • Japan minister queries women's worth without birth in election speech

                                                                      Japan minister queries women's worth without birth in election speech Foreign Minister Yoko Kamikawa on Saturday asked central Japan constituents how "we women can call ourselves women without giving birth," equating the importance of childbirth to electing a new governor in a speech ahead of a gubernatorial election. Kamikawa made the remarks during a visit to her native Shizuoka Prefecture in an

                                                                      • Fire・iPhoneでのKindle本のテキスト読み上げ機能(Text-to-Speech)の使い方 - Random Life Blog

                                                                        Kindle本のテキスト読み上げ機能(Text-to-Speech) みなさん、こんばんは。 最近、紙の本ではなくKindle本を導入して読書に勤しんでいるsamadaです。 Kindleはアマゾンのタブレット(Kindle、Fireなど)の他、スマホやiPhoneのアプリからも読めて非常に便利です。 使い始めて気付いたのですが、さらに便利なのはテキスト読み上げ機能(Text-to-Speech)なるものがある点です。 小説などの文章を音声で読み上げてくれる機能です。 これを使うことで、普通のKidle本がなんちゃってオーディオブックに変わります。 今日は、Kindle本のテキスト読み上げ機能(Text-to-Speech)について紹介したいと思います。 Kindleのテキスト読み上げ機能(Text-to-Speech)のメリット・デメリット メリット デメリット 対応するKindle本

                                                                        • Enhance Speech from Adobe | Free AI filter for cleaning up spoken audio

                                                                          This AI audio filter improves spoken audio to make it sound like it was recorded in a soundproofed studio.

                                                                          • Join the Premier Global Free Speech App | Parler

                                                                            People are on Parler. Join Parler to connect with others you may know. Parler is where free speech thrives.

                                                                            • Over 1,000 Jewish Creatives and Professionals Have Now Denounced Jonathan Glazer’s ‘Zone of Interest’ Oscars Speech in Open Letter (EXCLUSIVE)

                                                                              The group’s statement says: “We refute our Jewishness being hijacked for the purpose of drawing a moral equivalence between a Nazi regime that sought to exterminate a race of people, and an Israeli nation that seeks to avert its own extermination.” Glazer declined to comment. With such high-profile co-signees as Jennifer Jason Leigh, “La La Land” producer Gary Gilbert and “The Americans” creators

                                                                              • GitHub - wenet-e2e/speech-synthesis-paper: List of speech synthesis papers.

                                                                                • Introducing a foundational multimodal model for speech translation

                                                                                  Today, we’re introducing SeamlessM4T, a foundational multilingual and multitask model that seamlessly translates and transcribes across speech and text. SeamlessM4T supports: Automatic speech recognition for nearly 100 languagesSpeech-to-text translation for nearly 100 input and output languagesSpeech-to-speech translation, supporting nearly 100 input languages and 35 (+ English) output languagesT

