タグ

articleとvoiceに関するefclのブックマーク (5)

  • 音声の多様な情報を引き出し、機械に伝えるためのパラ言語認識〜意図態度認識・感情認識で何ができるようになるのか〜

    はじめに:機械が人の発話を理解するためには意図・態度・感情の認識が必須 近年、流暢な会話調の文章を自動的に生成する技術が登場し、人と日常会話が可能な機械が実現することに期待が高まっています。テキストを入出力としたチャットでは、すでに機械が流暢な応答をしてくれるようになったのは皆さんも実感なさっていると思います。 一方で、人と機械が音声で対話することを考えてみましょう。音声には、テキスト(言語情報)では表現することができない、多種多様な声のニュアンス(パラ言語情報)が含まれています。テキストにすれば全く同じ内容であっても、例えば声色の違いによって、伝えている意味が正反対になることすらあるのです。そのため、音声で人と円滑に会話を行うことができる機械を実現するためには、音声に含まれる多様なパラ言語情報を機械が認識するための技術が欠かせません。 そこで記事では、パラ言語情報の認識技術の中でも特に

    音声の多様な情報を引き出し、機械に伝えるためのパラ言語認識〜意図態度認識・感情認識で何ができるようになるのか〜
    efcl
    efcl 2024/01/13
    音声で文字起こしはできないけど、途中の肯定や疑問などの感情的な表現(パラ言語)を機械がどう認識させるかという話。 これ結構方言の影響とかも受けそうな気はする
  • 音声が伝える情報を逃さず捉えるための技術

    はじめに「音声言語処理技術」と聞くと, 音声を文字に書き起こすための技術音声認識)や, 書き起こした文字を機械で解析・解釈する技術を想像されるかもしれません. しかし音声には, 例えば話し手の声色や息づかいのような情報も含まれています. このような文字に書き起こせない情報は, 従来の音声言語処理技術ではあまり扱われてきませんでした. 実際のコミュニケーションの現場を考えてみると, 私たちは音声に加えてジャスチャーや表情などを使って, 多種多様な情報を意識的または無意識的にやりとりしています*1. 音声・非音声を問わず, これらの文字化できない情報のことを総称して「非言語」情報と呼びます. そして非言語情報の中でも, 話し手が音声を使って, 意識的に相手に伝えようとする情報のことを「パラ言語」情報と呼びます. 記事では, このパラ言語情報について考察します. パラとは「周辺的な, 補足的

    音声が伝える情報を逃さず捉えるための技術
    efcl
    efcl 2024/01/13
    "非言語情報の中でも, 話し手が音声を使って, 意識的に相手に伝えようとする情報のことを「パラ言語」情報と呼びます" "パラとは「周辺的な, 補足的な」という意味です. パラ言語情報とは, それ自体は文字にできないもの
  • 音声入力でメモを書けるウェブアプリを書いた、x-callbackを使ったアプリケーション連携

    voicodという音声入力でメモを書けるシンプルなウェブアプリケーションを書きました。 音声入力でメモができるシンプルなアプリケーションを書きました。https://t.co/EHSKnNKNaL x-callbackを使ってショートカット.app 等と連携すれば、入力内容をNotionに保存したりできます。 Note: SpeechRecognitionに対応したブラウザ(ChromeやSafari)が必要 Source: https://t.co/NnzXVjlGnF pic.twitter.com/yzoA3VIzzl — azu (@azu_re) February 10, 2022 SpeechRecognitionというウェブブラウザで音声認識をするAPIを使っているので、このAPIに対応しているブラウザが必要になります。 具体的にはGoogle ChromeやSafariなど

    音声入力でメモを書けるウェブアプリを書いた、x-callbackを使ったアプリケーション連携
    efcl
    efcl 2022/02/11
    音声認識を使ったメモアプリ。 x-callback-url(URLスキーム)連携を使ってAPIを叩いて保存したり、Chromeアプリとして使えば色々な使い方ができそう。ショートカットアプリがmacOSにもできたのはかなり便利になりそう
  • 体の動きや音声入力でアプリケーションをハンズフリー操作したりプログラミングしたり文章を書いたりしてみる

    この記事は、体の動きとか音声入力でアプリケーションを操作したり、プログラミングをするにはどうすればいいかということをいろいろ実験してみた記事です。 この記事には、実用性があるものと現実的に使うにはトレーニングが必要なものが混在しています。そのため、そこまで期待してはいけません。 この記事は、TalonとmacOSの音声入力で書いたものを手作業で修正しています。 マイクはBlue Microphones Yeticasterを使いました。 きっかけ t_wadaさんが老眼について書いていたのが、この記事を書いたきっかけの一つです。 プログラマ35歳定年説はとっくに過去のもので、35歳を過ぎても能力も報酬も伸び続けるし、生涯現役プログラマのロールモデルとなる方も増えてきた。ただ諸先輩方から聞いた話をまとめると、ベテランプログラマの前に立ち塞がるのは「老眼」で、こればかりは当に恐ろしい。何か対

    体の動きや音声入力でアプリケーションをハンズフリー操作したりプログラミングしたり文章を書いたりしてみる
    efcl
    efcl 2021/08/12
    ウェブカメラの動きでキー入力するmotion-keyと音声コマンドエンジンのTalonについて。 手を使わないでショートカット入力したり、macの音声入力を音声だけで操作する方法について
  • Hands-Free Coding

    Hands-Free CodingHow I develop software using dictation and eye-tracking Earlier this year, I developed Cubital Tunnel Syndrome, a repetitive-strain injury, in both of my elbows. As a result, I pretty much can't use a mouse or keyboard; after a few minutes, I get a burning pain shooting down my arms. Even if I try to limit my computer usage to 60-second bursts, I wind up inadvertently making the s

    Hands-Free Coding
    efcl
    efcl 2021/07/31
    talonを使った音声でのコーディングについて
  • 1