[B! 音声] Mikan6のブックマーク

議事録作成がはかどる!?　録音する先からテキスト化してくれるボイスレコーダー「Recoco」【仕事お役立ちアプリ】

Mikan6 2017/07/22

音声

リンク

それ、ラズパイでつくれるよ——日本語を喋らせる｜fabcross

いまや誰もが知っている小型で安価なボードコンピュータ「Raspberry Pi」。世界累計1100万台を超える販売数（2016年11月時点）を誇り、さまざまなシチュエーションで活用されている。そこで、多岐にわたるラズパイの使い方を調査し、これぞ！という活用例を集めて紹介していく企画がスタートします。題して、「それ、ラズパイでつくれるよ」。日本語の音声出力、ラズパイで出来ますよラズパイの音声出力はHDMIケーブルとステレオジャックの２つ。自動的に判別されるようになっているが、出力先を任意で変更することも可能なのでチェックしておく。自動判別 $ sudo amixer cset numid=3 0 本体のステレオジャックへ出力 $ sudo amixer cset numid=3 1 HDMI端子へ出力 $ sudo amixer cset numid=3 2 なお、ビデオ出力がDVI

Mikan6 2017/07/14

リンク

HEARTalk™ UU-001--販売終了

HEARTalk™ UU-001（ハートークユーツーゼロゼロワン）は、ヤマハ株式会社が開発した自然応答技術「HEARTalk™」（ハートーク）を搭載した基板です。 HEARTalk™とは、人間と機械との会話を自然にするために開発されたヤマハの独自技術です。人間の呼びかけの音楽的要素である「韻律」※をリアルタイムに解析し、応答に適した自然な「韻律」を導出します。どうしても単調だった機械の応答音声が、人間にとって自然な、強さ、抑揚、間、高さで返ってくるようになります。本製品に搭載されたマイクに向かって話しかけると、外部スピーカーから予め入力した音声を、HEARTalk™技術を用いて出力することができます。スピーカーは同梱していますが、スピーカーにはハーネスやコネクタを実装していません。ハーネスおよびJST ZHコネクタ（2ピン）のはんだづけが必要です（JST ZHコネクタ付きハーネスをご

Mikan6 2017/06/07

音声
AI

リンク

openSMILEを使ってみる

論文を調べていたらinterspeech2009で感情認識のChallengeが行われていた。そこで、使われているのがopenSMILEという特徴量抽出用のプログラム。いろいろな音声認識、音楽認識、などなどで用いられる特徴量ががっつり計算できる上にWEKA用のarffでも書き出せるようにしているらしい。というか、2009年でも一つの音声ファイルに対して384次元の特徴ベクトルを計算してくれる。 2010年用だと1000超えてたり、なんかすごいことになってる気もする。ちなみに、binで落としてもlinux/windows両方の実行ファイルが入ってるのでそちらが楽ではある。 SSE対応や64bit対応もしてるし。でも、やっぱりソースからコンパイルしてみたい。コンパイルはbookを見るとスクリプト一発だぜーと書いてあるような気がしたのだが、よく見たら細かい手順が書いてあった。ダウン

Mikan6 2015/10/19

リンク

統計的声質変換 (2) ボイスチェンジャーを作ろう - 人工知能に関する断創録

統計的声質変換 (1) ロードマップ（2015/2/11）の続き。統計的声質変換の第二回ということでまずは統計的じゃない声質変換の枠組みで簡単なボイスチェンジャーを作ってみたい。いきなり本題とずれているけれどここをしっかり理解できていないと統計的な方はまったく歯が立たないため整理しておきたい。ソース・フィルタモデル人間の音声は、ノドの声帯を振動させたブザー音が声道、口、唇を通過することで出てくる仕組みになっている。これを数学的にモデル化したのがソース・フィルタモデル。 http://www.kumikomi.net/archives/2010/08/ep30gose.php から引用このモデルでは、音源にあたるブザー音を作り出し、ブザー音をディジタルフィルタに通すことで音声を作る。音源のパラメータとして声の高さを表すピッチ、声道のパラメータとしてメルケプストラムというのがよく使われ

Mikan6 2015/02/26

リンク

アプリケーション | SLC

MCML音声コミュニケーションSDK（SLC-SDK）本SDKは、VoiceTra4UやAssisTraのような多言語音声翻訳・音声対話システムなどの音声アプリケーションを開発するためのツールキットです。通信プロトコルとしては、当機構が牽引する多言語音声翻訳のための国際コンソーシアムU-STAR（http://www.ustar- consortium.com/）の活動において国際標準化されたMCML（Modality Conversion Markup Language）規格を採用し、世界中の言語を、テキスト、音声、画像、ジェスチャなど、モダリティにとらわれず接続・変換し、言語の壁を超えるためのコミュニケーションを実現することを目的として設計されています。本SDKを用いることで、当機構が所有する高精度の音声認識、機械翻訳、音声合成、対話制御の各サーバを容易に接続することができ、

Mikan6 2015/01/21

リンク

グーグルが脳をヒントに音声認識を向上させた方法とは

Mikan6 2013/02/20

リンク

サウンドスペクトログラムに画像を埋め込む - 人工知能に関する断創録

Pythonで音声信号処理（2011/05/14）今回は、スペクトログラムを使って遊んでみました。サウンドスペクトログラムって何って人はこちらへ。Pythonでサウンドスペクトログラム（2011/10/1）。なんとスペクトログラムに任意の画像を埋め込んだ音声が作れるとのこと。こんなふうに。 Aphex TwinというミュージシャンのEquationという曲に埋め込まれた画像だそうです。こんな風に画像をスペクトログラムに簡単に埋め込むツールをいくつか見つけたので遊んでみます。 Coagula Coagulaというツールで画像をスペクトログラムに埋め込んだ音声が作れます。Coagulaを起動したらキャンバスが出てくるのでそこに任意の絵を描きます。F5キーで画像をスペクトログラムに変換し、FileメニューのSave Sound As...でWAVEファイルとして音声を保存できます。WAVEフ

Mikan6 2011/10/10

カッコイイ！

リンク

第3回　Kinect for Windows SDKで録音／音源の位置特定／音声認識

第3回　Kinect for Windows SDKで録音／音源の位置特定／音声認識：連載：Kinect for Windows SDK（ベータ版）開発入門（1/2 ページ）連載目次前回は、インストールされたC#版サンプル・プログラムの「Skeletal Viewer」について解説することで、NUI（ナチュラル・ユーザー・インターフェイス）のカメラ・イメージの取得、深度情報の取得、骨格情報の取得などのKinect for Windows SDK（ベータ版）の基本的な使い方について理解した。今回も引き続き、サンプル・プログラムを基に、録音／音源の位置特定／音声認識について解説する。 ■サンプル・プログラム「RecordAudio」まずは、SDKに付属のサンプル・プログラムである「RecordAudio」をひもときながら、Kinect for Windows SDK（ベータ版）のAudi

Mikan6 2011/10/04

リンク

はてなブックマーク

タグ

関連タグで絞り込む (18)

音声に関するMikan6のブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス