[B! speech] nekoharuのブックマーク

平野さん、プレゼンに強くなる「声」のだしかたを教えてください！（＋合同イベント告知！）

実は私は「声」に弱点をもっています。昔は授業でふたコマ連続でしゃべることもありましたし、いまでもイベントなどで話したりする機会が多いのですが、２時間も声を出した日は喉が痛くてしょうがなくなり、悪くするとそのまま熱を出して寝込んでしまいます。声の質にも悩むことがよくあります。たとえばプレゼンの結果を動画などでみると、妙にくぐもった声になっていたり、逆にマイクにノイズをたくさん吹き込んでいてがっくりということもあります。実は先日、「できる100ワザツイッター」のうちあげで、声優・ナレーターなどで著名な平野文（@hiranofumi）さんにお会いするという貴重な機会がありましたので、そんな悩みを聞いてもらいました！ずばり、プレゼンに自信をもつ声の出し方ってあるんですか？なにをおいても「ゆっくり話すこと」平野さんの答えは**「なによりも、ゆっくりと話すことですね」**でした。声

nekoharu 2010/03/29

リンク

HTK in Depth

HTKBook3.2を眺めてて使えそうな設定を見つけたのでメモ。 - HWAVEFILTER 入力音声にコマンドのフィルタを通せるらしい。たとえば、 HWAVEFILTER = 'gunzip -c $' とか。Shortenを通すという応用例も挙げられていた。 HWAVEFILTER = 'sox -t wav $ /dev/stdout' とかできるかもしれない。 - HWAVEOFILTER 出力音声にもフィルタ。mfccをgzipで圧縮とかできるかも。手元でやったあるファイルは50kbが47kbになりました。微妙だ・・・。 - MAXTRYOPEN ファイルオープンエラーの際に何回リトライするかの設定。上のFILTERの設定時は無視される模様。 NFSを使ってる環境では大事になってきそう。 - NATURALREADORDER, NATURALWRITEORDER バイナリファイ

nekoharu 2009/09/03

リンク

Senna - Wikipedia

Senna（せな、Senna: An Embeddable Fulltext Search Engine）は、未来検索ブラジルによって開発されているオープンソースの全文検索エンジンである。検索速度が高速なことから、「音速の貴公子」と呼ばれたアイルトン・セナにちなんで名づけられた。概要[編集] MeCabによる形態素解析の結果を用いた単語ベースのインデックスと、N-gramによるトークン抽出を用いたインデックスの両方を作成することができる。ライセンスはLGPL。UNIX系OS及びWindowsで動作する。バグフィックスを除いた新たな開発は事実上終了しており、開発元の未来検索ブラジルでは、後継となる検索エンジンとして『groonga』（ぐるんが）の開発を進めている。特徴[編集] 高速なインデックスの更新一般的に、作成済みの全文検索インデックスに対する新たなレコードの追加は負荷がかかる

nekoharu 2009/07/09

リンク

自己相関関数（ＡＣＦ）入門

| Japanese | English | 自己相関関数入門みなさんが中学・高校で習ってきたように、音は音源から伝わる空気の圧力の変化であり、その圧力変化は波形として表すことができます。音は時間の経過とともに伝わるものであり、時間が存在しなければ私たちは音を聞くことも楽しむこともできません。ここでまず、これから述べる“自己相関関数”は時間の領域から音に迫るものであることを覚えておいてください。音の時間領域と周波数領域音を記述する方法は２つあり、１つは時間に基づいて記述する方法（振幅と時間を軸にとった“波形”）、もう１つは周波数に基づいて記述する方法（振幅と周波数を軸にとった“スペクトル”）です。この２つは同じものを記述しており、１つの記述法からもう１つの記述法へ変換すること、またその逆変換が可能です。つまり音はどちらを用いても同じように効果的に記述できますが、そのときによって、どち

nekoharu 2009/05/25

リンク

MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

nekoharu 2009/05/23

リンク

フーリエ変換など。スペクトルの図を見て何がわかるのか？ - OKWAVE

理系の大学生です。院試のためフーリエ変換などを復習しています。そして恥ずかしながらスペクトルの図の表すものが何なのかよくわかりません。スペクトルの図を書く方法はわかるのです。フーリエ変換の計算方法もわかります。フーリエ級数展開もできます。ただ、スペクトルの図をみて何がわかるのかがよくわかりません。例えば、ある関数を微分して導関数の図を描くとするじゃないですか。すると導関数の値が正になってれば元の関数は傾きが正とか、つまり導関数の図を見て読み取れることがありますよね。同様にスペクトルの図を描けば、描いた以上元の信号について読み取れることがあるはずですよね。それが何なのかよくわかりません。イメージとしては↓のＵＲＬをご参照ください。 http://laputa.cs.shinshu-u.ac.jp/~yizawa/InfSys1/basic/chap2/index.htm

nekoharu 2009/05/01

リンク

http://www.gecky.net/

nekoharu 2009/04/15

音声の検索をしていたら偶然たどり着いてビックリ。とても凄い人だ。

リンク

小野測器-FFTアナライザ基礎用語集(ハ行）

波形のピーク値と実効値の比（ピーク値／実効値）で定義されています。DC の波高率（クレストファクター）は”１”、正弦波のクレストファクターは、√2 = 1.414 となります。例えば、ピーク値や実効値では、ベアリングの大きさによって振動値も相対的に変化しますが（大きなベアリングは振動の実効値も大きく、異常状態の場合のピーク値もさらに大きくなります）、クレストファクタ値はピーク値と実効値の比を求めているためベアリングの大小に振動値が左右されず、傷等の異常度合いをより正確に判断することが可能となります。計測されたクレストファクタの値が大きいと異常度合いが大きいと判断します。信号のパワーを一定の周波数帯域毎に分割し、各帯域毎のパワーを周波数の関数として表したものをパワースペクトルといいます。単位は振幅の２乗（V2 rms）となります。ＦＦＴアナライザでは、フーリエ変換によって、時間軸波形か

nekoharu 2009/02/13

リンク

MFCC

ケプストラムパラメータには, 多様な計算方法がある. その中には MFCC(Mel-Frequency Cepstrum Coefficient)がある. MFCCの計算では,スペクトラル分析は周波数軸上に三角窓を配置し,フィルタバンク分析により行う. すなわち, 窓の幅に対応する周波数帯域の信号のパワーを, 単一スペクトルチャンネルの振幅スペクトルの重みづけ和で求める. さらに,窓はメル周波数軸上に等間隔に配置される. 最終的に,フィルタバンク分析により得られた帯域におけるパワーを離散コサイン変換することで,MFCCが求められる.

nekoharu 2009/02/09

リンク

HMM(Hidden Markov Model,隠れマルコフモデル)

HMMは、不確定な時系列のデータをモデル化するための有効な統計的手法である[4]。HMMは、出力シンボルによって一意に状態遷移先が決まらないという意味での非決定性確率有限オートマトンとして定義される。出力シンボル系列が与えられても状態遷移系列は唯一に決まらない。観測できるのはシンボル系列だけであることからhidden(隠れ）マルコフモデルと呼ばれる [60]。 HMMはパラメータとして状態遷移確率、シンボル出力確率、初期状態確率を持つ。そして、シンボル出力確率の計算方法によって離散型HMMと連続分布型HMM に別れる。また、シンボル出力確率が状態で出力されるMooreマシンと状態遷移で出力されるMealyマシンに分類できる。以下では、Mealyタイプの離散型 HMMについて述べる[60]。なお、MooreタイプとMealyタイプは相互に変換可能である。

nekoharu 2008/12/21

speech
hmm

リンク

サンプリングレートとビットレート、どう違う？ - 日経トレンディネット

サウンドファイルの圧縮前と後で音質を表すのに使い分けられています。音声圧縮前のファイルでは高いサンプリングレートが音質を決めます。音声圧縮後はビットレートが音質を決めます。音楽CDのサウンドデータはサンプリングレート44.1kHzです。これは音声波形を1秒間に44100回細切れにして、それぞれの時点の音声情報をデジタル情報にしたものです。この数値が細かければ細かいほど、なめらかな音声になるので、当然、サンプリングレートの数値が音質を表します。これに対して、ビットレートはサウンドファイルを1秒間再生するのに必要となるデジタル情報です。音声圧縮後のサウンドファイルの音質表示によく利用されます。通常のMP3ファイルでは128kbpsが標準的です。つまり、1秒間に128000ビットの情報があります。通常、情報量が多いと音質がいいのですが、ビットレートが音質を表すのは、MP3同士など同じ圧縮形

nekoharu 2008/12/19

speech

リンク

http://72.14.235.104/search?q=cache:uv7vBNxkUWQJ:www.iri.pref.miyazaki.jp/pdf/H13/2001-20.pdf+fpga+%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98&hl=ja&ct=clnk&cd=2&gl=jp

nekoharu 2008/12/19

speech
fpga

リンク

「雑音下でも認識できます」，組み込み機器向け音声認識技術が本格上陸

車の運転時にカーナビゲーション・システムのボタンを押したい，料理中にテレビの音量を上げたいなど，手が離せない状況で機器を操作したい場面は少なくない。そういったシーンに有望なのが音声認識システムである。ところが，多くの音声認識システムはマイクの性能や周囲の雑音などに影響を受けやすく使いづらい。カーナビゲーション・システムであれば，車のエンジン音，再生中の音楽，街頭からの騒音など様々な音が混ざるため，うまく認識できない。ところが組み込み機器向け音声認識システムを開発・販売する米Fonix社は，雑音下でも認識できる音声認識エンジンを提供している。同社は2005年1月より日本での販売を本格化している。アジアセールスのディレクタのJohn Shepherd氏（写真）に話を聞いた。（聞き手＝中道理） ――なぜ雑音下でも認識できるのか。ニューラルネットを使っていることが大きい。ニューラルネットは脳の

nekoharu 2008/10/30

少し前の記事ですけど

リンク

HTK 3.0 HOWTO (工事中)

データ作成 HTKDemoの離散HMM(状態数:3, VQcodebook:64-64-16(Linear))を参考に使い方を一通り眺めてみる． tidata/ TIMIDデータベースより10文(7文:training,3文:testing) 発音記号ファイル(tidata/*.phn) →[HLEd, (edfiles/*.led)] → ラベルファイル(label/bcplabs/mon/*.lab) 音声ファイル(tidata/*.adc) →[HCopy]→ 特徴量ファイル(data/*/*.mfc) ネットワークファイル monNetworkを編集 % HParse networks/monNetwork(gram) networks/monLattice(wdnet:Standard Lattice Format(SLF)) networks/monNetwork $phn

nekoharu 2008/10/27

HTKの使い方

リンク

音声認識のしくみ

音声認識を紹介するページとにかくここでは、だらだらと「音声認識」というモノを紹介します。全体が（ほぼ）このページ一枚に収まっています。ところどころにリンクがありますが、そのリンク先には、難しい話やこぼれ話みたいなものがちょこちょことあります。ところで、話を簡単にするために、ちょっと嘘を混ぜています。そうでないと、ものすごく複雑な話になるので。音声認識ってなにさ簡単に言ってしまえば、人間が喋った声を機械が文字に直すことです。図で描くとこんな感じです。左側が音声波形（つまり、声を図に表している）で、右側がそれをひらがなに直したものです。左側の音声波形を少し詳しく見てみる人間は耳で音を聞きますが、機械はマイクで音を聞きます。そして、マイクで収録された音をそのまま表示させると、下のような感じになります。横軸が時刻で、縦軸が振幅です。音声というのは、ようす

nekoharu 2008/10/20

speech

リンク

音響分析

音響分析短時間スペクトル特徴を利用して音声認識を行う場合の、中心的な課題は、 (1)スペクトル特徴間の距離の定義 (2)時間軸正規化の方法の2点です。ここでは、(1)の音響分析を HTK を用いて行います。現在の音声認識において最も一般的に用いられているスペクトル距離尺度は、 LPCケプストラム、MFCC(Mel Frequency Cepstrum Coefficient)の 2 つです。しかし、いずれもケプストラム距離であることに変わりはなく、両者の本質的な相違は小さいと考えれています。 HTK では、音響特徴分析(波形データから短時間スペクトルパラメータの時系列への変換)を HCopy により行います。まず、準備した音声データの特徴パラメータ抽出を行います。 HTK では、以下のようなフォーマット形式のヘッダが付けられます。以下の 12byte のヘッ

nekoharu 2008/10/20

speech

リンク

http://techon.nikkeibp.co.jp/IPJapan/ipaward/2000/narasentan/narasentan.html

nekoharu 2008/10/20

speech
hmm

リンク

ケプストラム

音声のパワースペクトラムは, 声帯の振動や,摩擦による乱流などの音源信号に調音フィルタが畳み込まれたものであり, 音素の音響的な特徴は, 調音フィルタの振幅伝達特性によって, 主として担われている. このため, 音声信号から音素の特徴を抽出するためには, 観測された音声のパワースペクトラムから, 音源信号のスペクトルと,調音フィルタのスペクトルを分離し, 調音フィルタの特性にのみ関連する情報を抽出すれば良い. しかし音声信号から聴音フィルタを分離する問題は,出力信号から, 入力信号とシステムの伝達関数を分離する問題である. ケプストラム(cepstrum) は, 波形の短時間振幅スペクトルの対数の逆フーリエ変換として定義される. 音源信号のスペクトラムを , 調音フィルタの伝達特性をとすると次の関係が得られる.

nekoharu 2008/10/19

大事大事

リンク

６４点高速フーリエ変換回路

さて、第１０回の設計テーマですが、デジタル信号処理では必ず登場する高速フーリエ変換回路（Fast Fourier Transf orm Circ uit）の設計です。高速フーリエ変換は離散フーリエ変換（DFT)を高速に計算する手法であり、計算式自体は単純であり、以下に示す式になります。今回は802.11a/g/nなどのワイヤレスLANでよく使われているサイズということで、６４点のFFTすなわち、以下の式でN=64の場合になります。離散フーリエ変換の定義式は単純ですが、入力となるx(n)信号は、６４点あり、またすべて複素数であり、出力X(k)も６４点の複素数ということになります。このコンテストは学生対象のコンテストですので、学生対象対象としては６４点は丁度良いサイズと考えています。以下にFFTについての詳細や、デジタル回路での実現方法を丁寧に説明しますので、これまで、上記式は知っていても物理的

nekoharu 2008/10/19

大事大事

リンク

はてなブックマーク

タグ

関連タグで絞り込む (20)

speechに関するnekoharuのブックマーク (19)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス