タグ

speechに関するnekoharuのブックマーク (19)

  • 平野さん、プレゼンに強くなる「声」のだしかたを教えてください! (+合同イベント告知!)

    実は私は「声」に弱点をもっています。 昔は授業でふたコマ連続でしゃべることもありましたし、いまでもイベントなどで話したりする機会が多いのですが、2時間も声を出した日は喉が痛くてしょうがなくなり、悪くするとそのまま熱を出して寝込んでしまいます。 声の質にも悩むことがよくあります。たとえばプレゼンの結果を動画などでみると、妙にくぐもった声になっていたり、逆にマイクにノイズをたくさん吹き込んでいてがっくりということもあります。 実は先日、「できる100ワザ ツイッター 」のうちあげで、声優・ナレーターなどで著名な平野文 (@hiranofumi)さんにお会いするという貴重な機会がありましたので、そんな悩みを聞いてもらいました! ずばり、プレゼンに自信をもつ声の出し方ってあるんですか? なにをおいても「ゆっくり話すこと」 平野さんの答えは**「なによりも、ゆっくりと話すことですね」**でした。 声

    平野さん、プレゼンに強くなる「声」のだしかたを教えてください! (+合同イベント告知!)
  • HTK in Depth

    HTKBook3.2を眺めてて使えそうな設定を見つけたのでメモ。 - HWAVEFILTER 入力音声にコマンドのフィルタを通せるらしい。たとえば、 HWAVEFILTER = 'gunzip -c $' とか。Shortenを通すという応用例も挙げられていた。 HWAVEFILTER = 'sox -t wav $ /dev/stdout' とかできるかもしれない。 - HWAVEOFILTER 出力音声にもフィルタ。mfccをgzipで圧縮とかできるかも。 手元でやったあるファイルは50kbが47kbになりました。微妙だ・・・。 - MAXTRYOPEN ファイルオープンエラーの際に何回リトライするかの設定。上のFILTERの設定時は無視される模様。 NFSを使ってる環境では大事になってきそう。 - NATURALREADORDER, NATURALWRITEORDER バイナリファイ

    HTK in Depth
  • Senna - Wikipedia

    Senna(せな、Senna: An Embeddable Fulltext Search Engine)は、未来検索ブラジルによって開発されているオープンソースの全文検索エンジンである。検索速度が高速なことから、「音速の貴公子」と呼ばれたアイルトン・セナにちなんで名づけられた。 概要[編集] MeCabによる形態素解析の結果を用いた単語ベースのインデックスと、N-gramによるトークン抽出を用いたインデックスの両方を作成することができる。 ライセンスはLGPL。UNIX系OS及びWindowsで動作する。 バグフィックスを除いた新たな開発は事実上終了しており、開発元の未来検索ブラジルでは、後継となる検索エンジンとして『groonga』(ぐるんが)の開発を進めている。 特徴[編集] 高速なインデックスの更新 一般的に、作成済みの全文検索インデックスに対する新たなレコードの追加は負荷がかかる

  • 自己相関関数(ACF)入門

    | Japanese | English | 自己相関関数入門 みなさんが中学・高校で習ってきたように、音は音源から伝わる空気の圧力の変化であり、その圧力変化は波形として表すことができます。音は時間の経過とともに伝わるものであり、時間が存在しなければ私たちは音を聞くことも楽しむこともできません。ここでまず、これから述べる“自己相関関数”は時間の領域から音に迫るものであることを覚えておいてください。 音の時間領域と周波数領域 音を記述する方法は2つあり、1つは時間に基づいて記述する方法(振幅と時間を軸にとった“波形”)、もう1つは周波数に基づいて記述する方法(振幅と周波数を軸にとった“スペクトル”)です。この2つは同じものを記述しており、1つの記述法からもう1つの記述法へ変換すること、またその逆変換が可能です。つまり音はどちらを用いても同じように効果的に記述できますが、そのときによって、どち

  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

  • フーリエ変換など。スペクトルの図を見て何がわかるのか? - OKWAVE

    理系の大学生です。院試のためフーリエ変換などを復習しています。 そして恥ずかしながらスペクトルの図の表すものが何なのかよくわかりません。 スペクトルの図を書く方法はわかるのです。 フーリエ変換の計算方法もわかります。フーリエ級数展開もできます。 ただ、スペクトルの図をみて何がわかるのかがよくわかりません。 例えば、ある関数を微分して導関数の図を描くとするじゃないですか。 すると導関数の値が正になってれば元の関数は傾きが正とか、 つまり導関数の図を見て読み取れることがありますよね。 同様にスペクトルの図を描けば、描いた以上元の信号について読み取れることがあるはずですよね。 それが何なのかよくわかりません。 イメージとしては↓のURLをご参照ください。 http://laputa.cs.shinshu-u.ac.jp/~yizawa/InfSys1/basic/chap2/index.htm

    フーリエ変換など。スペクトルの図を見て何がわかるのか? - OKWAVE
  • http://www.gecky.net/

    nekoharu
    nekoharu 2009/04/15
    音声の検索をしていたら偶然たどり着いてビックリ。とても凄い人だ。
  • 小野測器-FFTアナライザ基礎用語集(ハ行)

    波形のピーク値と実効値の比(ピーク値/実効値)で定義されています。DC の波高率(クレストファクター)は”1”、正弦波のクレストファクターは、√2 = 1.414 となります。 例えば、ピーク値や実効値では、ベアリングの大きさによって振動値も相対的に変化しますが(大きなベアリングは振動の実効値も大きく、異常状態の場合のピーク値もさらに大きくなります)、クレストファクタ値はピーク値と実効値の比を求めているためベアリングの大小に振動値が左右されず、傷等の異常度合いをより正確に判断することが可能となります。計測されたクレストファクタの値が大きいと異常度合いが大きいと判断します。 信号のパワーを一定の周波数帯域毎に分割し、各帯域毎のパワーを周波数の関数として表したものをパワースペクトルといいます。単位は振幅の2乗(V2 rms)となります。 FFTアナライザでは、フーリエ変換によって、時間軸波形か

  • MFCC

    ケプストラムパラメータには, 多様な計算方法がある. その中には MFCC(Mel-Frequency Cepstrum Coefficient)がある. MFCCの計算では,スペクト ラル分析は周波数軸上に三角窓を配置し,フィルタバンク分析により行う. すな わち, 窓の幅に対応する周波数帯域の信号のパワーを, 単一スペクトルチャンネルの振幅スペクトルの重みづけ和で求める. さらに,窓はメル周波数軸上に等間隔に配置される. 最終的に,フィルタバンク分析により得られた帯域におけるパワーを離散コサイン変換することで,MFCCが求められる.

  • HMM(Hidden Markov Model,隠れマルコフモデル)

    HMMは、不確定な時系列のデータをモデル化するための有効な統計的 手法である[4]。HMMは、出力シンボルによって一意に状態遷移先が 決まらないという意味での非決定性確率有限オートマトンとして定義される。 出力シンボル系列が与えられても状態遷移系列は唯一に決まらない。観測でき るのはシンボル系列だけであることからhidden(隠れ)マルコフモデルと呼ば れる [60]。 HMMはパラメータとして状態遷移確率、シンボル出力確率、初期状態確率を持 つ。そして、シンボル出力確率の計算方法によって離散型HMMと連続分布型HMM に別れる。また、シンボル出力確率が状態で出力されるMooreマシンと状態遷 移で出力されるMealyマシンに分類できる。以下では、Mealyタイプの離散型 HMMについて述べる[60]。なお、MooreタイプとMealyタイプは相互 に変換可能である。

  • サンプリングレートとビットレート、どう違う? - 日経トレンディネット

    サウンドファイルの圧縮前と後で音質を表すのに使い分けられています。音声圧縮前のファイルでは高いサンプリングレートが音質を決めます。音声圧縮後はビットレートが音質を決めます。 音楽CDのサウンドデータはサンプリングレート44.1kHzです。これは音声波形を1秒間に44100回細切れにして、それぞれの時点の音声情報をデジタル情報にしたものです。この数値が細かければ細かいほど、なめらかな音声になるので、当然、サンプリングレートの数値が音質を表します。 これに対して、ビットレートはサウンドファイルを1秒間再生するのに必要となるデジタル情報です。音声圧縮後のサウンドファイルの音質表示によく利用されます。通常のMP3ファイルでは128kbpsが標準的です。つまり、1秒間に128000ビットの情報があります。 通常、情報量が多いと音質がいいのですが、ビットレートが音質を表すのは、MP3同士など同じ圧縮形

    サンプリングレートとビットレート、どう違う? - 日経トレンディネット
  • http://72.14.235.104/search?q=cache:uv7vBNxkUWQJ:www.iri.pref.miyazaki.jp/pdf/H13/2001-20.pdf+fpga+%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98&hl=ja&ct=clnk&cd=2&gl=jp

  • 「雑音下でも認識できます」,組み込み機器向け音声認識技術が本格上陸

    車の運転時にカーナビゲーション・システムのボタンを押したい,料理中にテレビの音量を上げたいなど,手が離せない状況で機器を操作したい場面は少なくない。そういったシーンに有望なのが音声認識システムである。ところが,多くの音声認識システムはマイクの性能や周囲の雑音などに影響を受けやすく使いづらい。カーナビゲーション・システムであれば,車のエンジン音,再生中の音楽,街頭からの騒音など様々な音が混ざるため,うまく認識できない。ところが組み込み機器向け音声認識システムを開発・販売する米Fonix社は,雑音下でも認識できる音声認識エンジンを提供している。同社は2005年1月より日での販売を格化している。アジアセールスのディレクタのJohn Shepherd氏(写真)に話を聞いた。(聞き手=中道 理) ――なぜ雑音下でも認識できるのか。 ニューラルネットを使っていることが大きい。ニューラルネットは脳の

    「雑音下でも認識できます」,組み込み機器向け音声認識技術が本格上陸
    nekoharu
    nekoharu 2008/10/30
    少し前の記事ですけど
  • HTK 3.0 HOWTO (工事中)

    データ作成 HTKDemoの離散HMM(状態数:3, VQcodebook:64-64-16(Linear))を参考に使い方を一通り眺めてみる. tidata/ TIMIDデータベースより10文(7文:training,3文:testing) 発音記号ファイル(tidata/*.phn) →[HLEd, (edfiles/*.led)] → ラベルファイ ル(label/bcplabs/mon/*.lab) 音声ファイル(tidata/*.adc) →[HCopy]→ 特徴量ファイル(data/*/*.mfc) ネットワークファイル monNetworkを編集 % HParse networks/monNetwork(gram) networks/monLattice(wdnet:Standard Lattice Format(SLF)) networks/monNetwork $phn

    nekoharu
    nekoharu 2008/10/27
    HTKの使い方
  • 音声認識のしくみ

    音声認識を紹介するページ とにかくここでは、 だらだらと「音声認識」というモノを紹介します。 全体が(ほぼ)このページ一枚に収まっています。 ところどころにリンクがありますが、 そのリンク先には、 難しい話やこぼれ話みたいなものがちょこちょことあります。 ところで、話を簡単にするために、 ちょっと嘘を混ぜています。 そうでないと、ものすごく複雑な話になるので。 音声認識ってなにさ 簡単に言ってしまえば、 人間が喋った声を機械が文字に直すことです。 図で描くとこんな感じです。 左側が音声波形(つまり、声を図に表している)で、 右側がそれをひらがなに直したものです。 左側の音声波形を少し詳しく見てみる 人間は耳で音を聞きますが、 機械はマイクで音を聞きます。 そして、マイクで収録された音をそのまま表示させると、 下のような感じになります。 横軸が時刻で、縦軸が振幅です。 音声というのは、ようす

  • 音響分析

    音響分析 短時間スペクトル特徴を利用して音声認識を行う場合の、中心的な課題は、 (1)スペクトル特徴間の距離の定義 (2)時間軸正規化の方法 の2点です。ここでは、(1)の音響分析を HTK を用いて行います。 現在の音声認識において最も一般的に用いられているスペクトル距離尺度は、 LPCケプストラム、MFCC(Mel Frequency Cepstrum Coefficient)の 2 つです。 しかし、いずれもケプストラム距離であることに変わりはなく、両者の質的な 相違は小さいと考えれています。 HTK では、音響特徴分析(波形データから短時間スペクトルパラメータの時系列への 変換)を HCopy により行います。 まず、準備した音声データの特徴パラメータ抽出を行います。 HTK では、以下のようなフォーマット形式のヘッダが付けられます。 以下の 12byte のヘッ

  • http://techon.nikkeibp.co.jp/IPJapan/ipaward/2000/narasentan/narasentan.html

  • ケプストラム

    音声のパワースペクトラムは, 声帯の振動や,摩擦による乱流などの音源信号に 調音フィルタが畳み込まれたものであり, 音素の音響的な特徴は, 調音フィルタ の振幅伝達特性によって, 主として担われている. このため, 音声信号から音素 の特徴を抽出するためには, 観測された音声のパワースペクトラムから, 音源信号 のスペクトルと,調音フィルタのスペクトルを分離し, 調音フィルタの特性にのみ 関連する情報を抽出すれば良い. しかし音声信号から聴音フィルタを分離する問 題は,出力信号 から, 入力信号 とシステムの伝達関数 を分離する問題である. ケプストラム(cepstrum) は, 波形の短時間振幅スペクトル の対数の逆フーリエ変換として定義される. 音源信号のスペ クトラムを , 調音フィルタの伝達特性を とすると次の関係が得られる.

    nekoharu
    nekoharu 2008/10/19
    大事大事
  • 64点高速フーリエ変換回路

    さて、第10回の設計テーマですが、デジタル信号処理では必ず登場する高速フーリエ変換回路(Fast Fourier Transform Circuit)の設計です。高速フーリエ変換は離散フーリエ変換(DFT)を高速に計算する手法であり、計算式自体は単純であり、以下に示す式になります。今回は802.11a/g/nなどのワイヤレスLANでよく使われているサイズということで、64点のFFTすなわち、以下の式でN=64の場合になります。 離散フーリエ変換の定義式は単純ですが、入力となるx(n)信号は、64点あり、またすべて複素数であり、出力X(k)も64点の複素数ということになります。このコンテストは学生対象のコンテストですので、学生対象対象としては64点は丁度良いサイズと考えています。以下にFFTについての詳細や、デジタル回路での実現方法を丁寧に説明しますので、これまで、上記式は知っていても物理的

    nekoharu
    nekoharu 2008/10/19
    大事大事
  • 1