いまや誰もが知っている小型で安価なボードコンピュータ「Raspberry Pi」。世界累計1100万台を超える販売数(2016年11月時点)を誇り、さまざまなシチュエーションで活用されている。そこで、多岐にわたるラズパイの使い方を調査し、これぞ! という活用例を集めて紹介していく企画がスタートします。題して、「それ、ラズパイでつくれるよ」。 日本語の音声出力、ラズパイで出来ますよ ラズパイの音声出力はHDMIケーブルとステレオジャックの2つ。自動的に判別されるようになっているが、出力先を任意で変更することも可能なのでチェックしておく。 自動判別 $ sudo amixer cset numid=3 0 本体のステレオジャックへ出力 $ sudo amixer cset numid=3 1 HDMI端子へ出力 $ sudo amixer cset numid=3 2 なお、ビデオ出力がDVI
HEARTalk™ UU-001(ハートーク ユーツー ゼロゼロワン)は、ヤマハ株式会社が開発した自然応答技術「HEARTalk™」(ハートーク)を搭載した基板です。 HEARTalk™とは、人間と機械との会話を自然にするために開発されたヤマハの独自技術です。人間の呼びかけの音楽的要素である「韻律」※をリアルタイムに解析し、応答に適した自然な「韻律」を導出します。どうしても単調だった機械の応答音声が、人間にとって自然な、強さ、抑揚、間、高さで返ってくるようになります。 本製品に搭載されたマイクに向かって話しかけると、外部スピーカーから予め入力した音声を、HEARTalk™技術を用いて出力することができます。スピーカーは同梱していますが、スピーカーにはハーネスやコネクタを実装していません。ハーネスおよびJST ZHコネクタ(2ピン)のはんだづけが必要です(JST ZHコネクタ付きハーネスをご
論文を調べていたらinterspeech2009で感情認識のChallengeが行われていた。 そこで、使われているのがopenSMILEという特徴量抽出用のプログラム。 いろいろな音声認識、音楽認識、などなどで用いられる特徴量ががっつり計算できる上にWEKA用のarffでも書き出せるようにしているらしい。 というか、2009年でも一つの音声ファイルに対して384次元の特徴ベクトルを計算してくれる。 2010年用だと1000超えてたり、なんかすごいことになってる気もする。 ちなみに、binで落としてもlinux/windows両方の実行ファイルが入ってるのでそちらが楽ではある。 SSE対応や64bit対応もしてるし。 でも、やっぱりソースからコンパイルしてみたい。 コンパイルはbookを見るとスクリプト一発だぜーと書いてあるような気がしたのだが、よく見たら細かい手順が書いてあった。 ダウン
統計的声質変換 (1) ロードマップ(2015/2/11)の続き。 統計的声質変換の第二回ということでまずは統計的じゃない声質変換の枠組みで簡単なボイスチェンジャーを作ってみたい。いきなり本題とずれているけれどここをしっかり理解できていないと統計的な方はまったく歯が立たないため整理しておきたい。 ソース・フィルタモデル 人間の音声は、ノドの声帯を振動させたブザー音が声道、口、唇を通過することで出てくる仕組みになっている。これを数学的にモデル化したのがソース・フィルタモデル。 http://www.kumikomi.net/archives/2010/08/ep30gose.php から引用 このモデルでは、音源にあたるブザー音を作り出し、ブザー音をディジタルフィルタに通すことで音声を作る。音源のパラメータとして声の高さを表すピッチ、声道のパラメータとしてメルケプストラムというのがよく使われ
MCML音声コミュニケーションSDK(SLC-SDK) 本SDKは、VoiceTra4UやAssisTraのような多言語音声翻訳・音声対話システムなどの音声アプリケーションを開発するためのツール キットです。通信プロトコルとしては、当機構が牽引する多言語音声翻訳のための国際コンソーシアムU-STAR(http://www.ustar- consortium.com/)の活動において国際標準化されたMCML(Modality Conversion Markup Language)規格を採用し、世界中の言語を、テキスト、音声、画像、ジェスチャなど、モダリティにとらわれず接続・変換し、言語の壁を超えるための コミュニケーションを実現することを目的として設計されています。 本SDKを用いることで、当機構が所有する高精度の音声認識、機械翻訳、音声合成、対話制御の各サーバを容易に接続することができ、
Pythonで音声信号処理(2011/05/14) 今回は、スペクトログラムを使って遊んでみました。サウンドスペクトログラムって何って人はこちらへ。Pythonでサウンドスペクトログラム(2011/10/1)。 なんとスペクトログラムに任意の画像を埋め込んだ音声が作れるとのこと。こんなふうに。 Aphex TwinというミュージシャンのEquationという曲に埋め込まれた画像だそうです。こんな風に画像をスペクトログラムに簡単に埋め込むツールをいくつか見つけたので遊んでみます。 Coagula Coagulaというツールで画像をスペクトログラムに埋め込んだ音声が作れます。Coagulaを起動したらキャンバスが出てくるのでそこに任意の絵を描きます。F5キーで画像をスペクトログラムに変換し、FileメニューのSave Sound As...でWAVEファイルとして音声を保存できます。WAVEフ
第3回 Kinect for Windows SDKで録音/音源の位置特定/音声認識:連載:Kinect for Windows SDK(ベータ版)開発入門(1/2 ページ) 連載目次 前回は、インストールされたC#版サンプル・プログラムの「Skeletal Viewer」について解説することで、NUI(ナチュラル・ユーザー・インターフェイス)のカメラ・イメージの取得、深度情報の取得、骨格情報の取得などのKinect for Windows SDK(ベータ版)の基本的な使い方について理解した。今回も引き続き、サンプル・プログラムを基に、録音/音源の位置特定/音声認識について解説する。 ■サンプル・プログラム「RecordAudio」 まずは、SDKに付属のサンプル・プログラムである「RecordAudio」をひもときながら、Kinect for Windows SDK(ベータ版)のAudi
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く