並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 11 件 / 11件

新着順 人気順

音声入力の検索結果1 - 11 件 / 11件

  • iPhone・Androidで高速に日本語音声入力するためのベストプラクティス

    先日Twitterで「大学生がスマートフォンでレポートを書いている」というツイートが話題になっており、それに対して反応している方達もほぼ全員が「スマートフォンでレポートを書くのは効率が悪い」という前提で話をしていることに大変違和感を覚えました。 なぜなら私はこのブログはもちろん、技術書を執筆するときでさえ主にスマートフォンで下書きをしているからです。 PCを使うのは、ほぼスクリーンショットの撮影と最後の仕上げだけです。 その方が、最初からPCで文字入力するのに比べて圧倒的に効率が良いです。 この記事では、iPhoneとAndroidそれぞれで音声入力を効率よくおこなう方法について解説します。 iPhone・iPadの場合 先に結論から申し上げると、iPhone・iPad・Macの日本語音声入力は、AndroidのGoogle音声入力に比べて認識精度が低く、認識できる単語が少ないです。 仕事

      iPhone・Androidで高速に日本語音声入力するためのベストプラクティス
    • chat GPT + 音声入力 = やばい

      勝間和代氏が激推ししている音声入力がある。確かに入力は早いのだが、句読点はぬけるし、改行もまともにならないし、雑音で変な文章が入る。 これを自分で修正する前に、Chat GPTにやらせると、無茶苦茶効率がいい。 やり方はこうだ 適当なメモソフトに、スマホの音声入力で入力する入力結果をコピペする。この時、明らかにおかしい部分はざっと取り除く。(例えば、音声入力していて間違って入れちゃった部分など) Chat GPT に入力する。最後に自分で校正する もう一度 Chat GPTで整えてもらう (゚д゚)ウマー 通勤中の車の中で適当に文章を入力して、それを出社後処理して、増田に投稿する。これで今日も俺の増田ライフは楽しく続いているのであった。 ちなみにこれもこの方式で書いてる。あとはChat GPT がはてな記法に対応してくれればいいんだがな。(markdownはもういける)

        chat GPT + 音声入力 = やばい
      • 口パクで音声入力、喉に小型センサーで 東大とソニーCSLが技術開発

        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 東京大学大学院情報学環とソニーコンピュータサイエンス研究所(CSL)の研究チームが開発した「Derma」は、喉周辺の皮膚にセンサーを張り付け、口パク(無声発話)を音声入力に変換する深層学習を用いたサイレントスピーチインタラクション(Silent Speech Interaction、SSI) だ。 話者の唇や顎(あご)周辺を指で触れ、発話を読み取ろうとする、視聴覚障害者のためのTadoma(触診リップリーディング)法から発想を得ている。Tadoma法では主に唇周辺の皮膚を触って発話を認識しているが、今回の研究ではそれを機械学習により自動化した。さらにウェアラブルでの利用を想定し、より目立ち

          口パクで音声入力、喉に小型センサーで 東大とソニーCSLが技術開発
        • 音声入力でメモを書けるウェブアプリを書いた、x-callbackを使ったアプリケーション連携

          voicodという音声入力でメモを書けるシンプルなウェブアプリケーションを書きました。 音声入力でメモができるシンプルなアプリケーションを書きました。https://t.co/EHSKnNKNaL x-callbackを使ってショートカット.app 等と連携すれば、入力内容をNotionに保存したりできます。 Note: SpeechRecognitionに対応したブラウザ(ChromeやSafari)が必要 Source: https://t.co/NnzXVjlGnF pic.twitter.com/yzoA3VIzzl — azu (@azu_re) February 10, 2022 SpeechRecognitionというウェブブラウザで音声認識をするAPIを使っているので、このAPIに対応しているブラウザが必要になります。 具体的にはGoogle ChromeやSafariなど

            音声入力でメモを書けるウェブアプリを書いた、x-callbackを使ったアプリケーション連携
          • ヘッドセットでリマインダー音声入力という言霊2.0 - 本しゃぶり

            唱えたことが現実になる。 これはオカルトではなくテクノロジーの話だ。 常時装着したヘッドセットが人生を変える。 常時装着の有効活用 左耳の前を触ってみよう。きっとそこには「ボタン」がある。 そこにはブームマイクしかないが、という人は右側を触ろう。 本記事はこのボタンを有効活用する記事である。 何も無いとのたまう旧人類は早くヘッドセット常時装着(アップデート)してほしい。 前回の記事への反応で、「読んでAfterShockzを買った」というコメントをわりと見た。記事を書いた者として、せっかく買って常時装着するのなら有効活用してほしい。そこで前回の記事では触れていなかった活用方法、リマインダーへの音声入力の話をする。これは音声アシスタントへの入力端末を常時装着することの、真の価値を感じられる手法である。 これを前回紹介しなかったのは、俺はApple Watchで音声入力をすることが多いからであ

              ヘッドセットでリマインダー音声入力という言霊2.0 - 本しゃぶり
            • superwhisperでの音声入力を試す

              superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

                superwhisperでの音声入力を試す
              • Metaが音楽生成AIモデルをオープンソースで公開、テキスト&音声入力で誰でも高品質な音楽を作成できるように

                Metaの研究チームが音楽を生成するAIモデル「MusicGen」を公開しました。オープンソースでの公開となっているため誰でも無料でモデルを利用できるほか、作例やデモが公開されており、その品質を実際に確かめることが可能になっています。 [2306.05284] Simple and Controllable Music Generation https://doi.org/10.48550/arXiv.2306.05284 MusicGen: Simple and Controllable Music Generation https://ai.honu.io/papers/musicgen/ MusicGenはChatGPTなどの大規模言語モデルと同様にTransformerを利用したモデルです。言語モデルは文の次の言葉を予測しますが、MusicGenは音楽の次のセクションを予測する仕組

                  Metaが音楽生成AIモデルをオープンソースで公開、テキスト&音声入力で誰でも高品質な音楽を作成できるように
                • 9m先のスマートフォンを超音波で“攻撃” 人に聞かれずに音声入力も

                  Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 ミシガン州立大学、中国科学院、ネブラスカ大学リンカーン校、セントルイス・ワシントン大学による米中の研究チームが開発した「SurfingAttack」は、机などの固体を介した超音波によって、離れた場所に置かれているスマートフォンなどへ音声入力する伝送法だ。 SurfingAttackは、音声コマンドを人には聞こえない周波数帯域に変調し、超音波トランスデューサー(圧電トランスデューサー)を用い、固体を介した振動で信号を送ることで、机の上に置いてあるスマートフォンなどに音声入力する。 人には聞き取れない周波数を用いるため、スマートフォンの近くにいる人に気が付かれず音声入力できる。そのため、持ち主

                    9m先のスマートフォンを超音波で“攻撃” 人に聞かれずに音声入力も
                  • GeForce RTX搭載PCで動くローカルAI「ChatRTX」刷新。画像認識や音声入力に対応

                      GeForce RTX搭載PCで動くローカルAI「ChatRTX」刷新。画像認識や音声入力に対応
                    • 日本では一ヶ月かかる論文を海外は7日で書き終える→まさかの”音声入力”がカギ

                      りっく @marudewakaran40 留学先のボスに『日本の研究者は国際会議の論文1本書くのに1ヶ月かけるって本当かい?ウチのスタッフは3日で書いて3日でリバイスして1日かけて最終確認&投稿する、7日のワークと決めている。報告書は鮮度が命だからね』と言われて、そんなことができるのかと思っていたら、(1/2) りっく @marudewakaran40 ある日ラボのスタッフがなにやらブツブツ言っていて『なにしてるのん?』と聞いたら『論文書いてる。打つの面倒だからディクテーション機能で書いてる。これが早いんだよ』と言っていて当時は目から鱗なのん。 最近の私は、口頭で書き殴ってGPTに文法ミス指摘させてるのん(2/2)

                        日本では一ヶ月かかる論文を海外は7日で書き終える→まさかの”音声入力”がカギ
                      • iOS版「OpenAI ChatGPT」アプリ、まずは米国で公開 音声入力も可能

                        Web版と同様にログインして使う。有料版「ChatGPT Plus」ユーザーであれば、Web版と同様にGPT-4へのアクセスや新機能の早期利用などが可能だ。 また、昨年9月に発表したオープンソースの音声テキスト変換AI「Whisper」により、音声でのプロンプト入力も可能だ。 米Microsoftは2月に「新しいBing」のモバイルアプリ版をiOSおよびAndroid向けにリリースした。こちらは既に日本でも利用可能で、日本語での音声入力もできる。 現在App Storeで「ChatGPT」を検索すると、OpenAIのロゴに似たロゴを冠した類似アプリが多数表示される。OpenAI ChatGPTは日本ではまだ公開されていないので、注意が必要だ。 関連記事 ChatGPT Plusのプラグインを使ってみた 「食べログ」連携で実在店舗も案内可能に OpenAIは「ChatGPT Plus」のサー

                          iOS版「OpenAI ChatGPT」アプリ、まずは米国で公開 音声入力も可能
                        1