タグ

音声に関するMikan6のブックマーク (9)

  • 議事録作成がはかどる!? 録音する先からテキスト化してくれるボイスレコーダー「Recoco」【仕事お役立ちアプリ】

    議事録作成がはかどる!? 録音する先からテキスト化してくれるボイスレコーダー「Recoco」【仕事お役立ちアプリ】
  • それ、ラズパイでつくれるよ——日本語を喋らせる|fabcross

    いまや誰もが知っている小型で安価なボードコンピュータ「Raspberry Pi」。世界累計1100万台を超える販売数(2016年11月時点)を誇り、さまざまなシチュエーションで活用されている。そこで、多岐にわたるラズパイの使い方を調査し、これぞ! という活用例を集めて紹介していく企画がスタートします。題して、「それ、ラズパイでつくれるよ」。 日語の音声出力、ラズパイで出来ますよ ラズパイの音声出力はHDMIケーブルとステレオジャックの2つ。自動的に判別されるようになっているが、出力先を任意で変更することも可能なのでチェックしておく。 自動判別 $ sudo amixer cset numid=3 0 体のステレオジャックへ出力 $ sudo amixer cset numid=3 1 HDMI端子へ出力 $ sudo amixer cset numid=3 2 なお、ビデオ出力がDVI

    それ、ラズパイでつくれるよ——日本語を喋らせる|fabcross
  • HEARTalk™ UU-001--販売終了

    HEARTalk™ UU-001(ハートーク ユーツー ゼロゼロワン)は、ヤマハ株式会社が開発した自然応答技術「HEARTalk™」(ハートーク)を搭載した基板です。 HEARTalk™とは、人間と機械との会話を自然にするために開発されたヤマハの独自技術です。人間の呼びかけの音楽的要素である「韻律」※をリアルタイムに解析し、応答に適した自然な「韻律」を導出します。どうしても単調だった機械の応答音声が、人間にとって自然な、強さ、抑揚、間、高さで返ってくるようになります。 製品に搭載されたマイクに向かって話しかけると、外部スピーカーから予め入力した音声を、HEARTalk™技術を用いて出力することができます。スピーカーは同梱していますが、スピーカーにはハーネスやコネクタを実装していません。ハーネスおよびJST ZHコネクタ(2ピン)のはんだづけが必要です(JST ZHコネクタ付きハーネスをご

    HEARTalk™ UU-001--販売終了
  • openSMILEを使ってみる

    論文を調べていたらinterspeech2009で感情認識のChallengeが行われていた。 そこで、使われているのがopenSMILEという特徴量抽出用のプログラム。 いろいろな音声認識音楽認識、などなどで用いられる特徴量ががっつり計算できる上にWEKA用のarffでも書き出せるようにしているらしい。 というか、2009年でも一つの音声ファイルに対して384次元の特徴ベクトルを計算してくれる。 2010年用だと1000超えてたり、なんかすごいことになってる気もする。 ちなみに、binで落としてもlinux/windows両方の実行ファイルが入ってるのでそちらが楽ではある。 SSE対応や64bit対応もしてるし。 でも、やっぱりソースからコンパイルしてみたい。 コンパイルはbookを見るとスクリプト一発だぜーと書いてあるような気がしたのだが、よく見たら細かい手順が書いてあった。 ダウン

    openSMILEを使ってみる
  • 統計的声質変換 (2) ボイスチェンジャーを作ろう - 人工知能に関する断創録

    統計的声質変換 (1) ロードマップ(2015/2/11)の続き。 統計的声質変換の第二回ということでまずは統計的じゃない声質変換の枠組みで簡単なボイスチェンジャーを作ってみたい。いきなり題とずれているけれどここをしっかり理解できていないと統計的な方はまったく歯が立たないため整理しておきたい。 ソース・フィルタモデル 人間の音声は、ノドの声帯を振動させたブザー音が声道、口、唇を通過することで出てくる仕組みになっている。これを数学的にモデル化したのがソース・フィルタモデル。 http://www.kumikomi.net/archives/2010/08/ep30gose.php から引用 このモデルでは、音源にあたるブザー音を作り出し、ブザー音をディジタルフィルタに通すことで音声を作る。音源のパラメータとして声の高さを表すピッチ、声道のパラメータとしてメルケプストラムというのがよく使われ

    統計的声質変換 (2) ボイスチェンジャーを作ろう - 人工知能に関する断創録
  • アプリケーション | SLC

    MCML音声コミュニケーションSDK(SLC-SDK) SDKは、VoiceTra4UやAssisTraのような多言語音声翻訳・音声対話システムなどの音声アプリケーションを開発するためのツール キットです。通信プロトコルとしては、当機構が牽引する多言語音声翻訳のための国際コンソーシアムU-STAR(http://www.ustar- consortium.com/)の活動において国際標準化されたMCML(Modality Conversion Markup Language)規格を採用し、世界中の言語を、テキスト、音声、画像、ジェスチャなど、モダリティにとらわれず接続・変換し、言語の壁を超えるための コミュニケーションを実現することを目的として設計されています。 SDKを用いることで、当機構が所有する高精度の音声認識、機械翻訳、音声合成、対話制御の各サーバを容易に接続することができ、

  • グーグルが脳をヒントに音声認識を向上させた方法とは

  • サウンドスペクトログラムに画像を埋め込む - 人工知能に関する断創録

    Pythonで音声信号処理(2011/05/14) 今回は、スペクトログラムを使って遊んでみました。サウンドスペクトログラムって何って人はこちらへ。Pythonでサウンドスペクトログラム(2011/10/1)。 なんとスペクトログラムに任意の画像を埋め込んだ音声が作れるとのこと。こんなふうに。 Aphex TwinというミュージシャンのEquationという曲に埋め込まれた画像だそうです。こんな風に画像をスペクトログラムに簡単に埋め込むツールをいくつか見つけたので遊んでみます。 Coagula Coagulaというツールで画像をスペクトログラムに埋め込んだ音声が作れます。Coagulaを起動したらキャンバスが出てくるのでそこに任意の絵を描きます。F5キーで画像をスペクトログラムに変換し、FileメニューのSave Sound As...でWAVEファイルとして音声を保存できます。WAVEフ

    サウンドスペクトログラムに画像を埋め込む - 人工知能に関する断創録
    Mikan6
    Mikan6 2011/10/10
    カッコイイ!
  • 第3回 Kinect for Windows SDKで録音/音源の位置特定/音声認識

    第3回 Kinect for Windows SDKで録音/音源の位置特定/音声認識:連載:Kinect for Windows SDK(ベータ版)開発入門(1/2 ページ) 連載目次 前回は、インストールされたC#版サンプル・プログラムの「Skeletal Viewer」について解説することで、NUI(ナチュラル・ユーザー・インターフェイス)のカメラ・イメージの取得、深度情報の取得、骨格情報の取得などのKinect for Windows SDK(ベータ版)の基的な使い方について理解した。今回も引き続き、サンプル・プログラムを基に、録音/音源の位置特定/音声認識について解説する。 ■サンプル・プログラム「RecordAudio」 まずは、SDKに付属のサンプル・プログラムである「RecordAudio」をひもときながら、Kinect for Windows SDK(ベータ版)のAudi

    第3回 Kinect for Windows SDKで録音/音源の位置特定/音声認識
  • 1