タグ

ブックマーク / shower.human.waseda.ac.jp/~m-kouki (3)

  • ELANによる動画解析の手順 - Miyazawa’s Pukiwiki 公開版

    ELANとは? † ELAN(エラン)は、動画と音声資源に注釈を作成するための専門的ツールである(ELAN Descriptionより)。 無制限の数の注釈を加えることができる。 注釈は相互接続な複数の階層で作成することができる。 XMLフォーマットで保存される。 メディア再生を既存のメディアフレームワークに委任する(多種多様な音声およびビデオフォーマットがサポートされる) Javaプログラミング言語で書かれ、ソースは非商業利用可能 異なるステップサイズのメディア間を接続可能 ユーザーが語彙を定義可能 Praatに対応、TextGridファイルを読み込むことができる Max Planck Institute for Psycholinguistics(マックスプランク心理言語学研究所)開発 ↑

    yuiseki
    yuiseki 2013/11/08
    動画と音声資源に注釈を作成するための専門的ツール xmlフォーマットで保存される
  • HTSによるHMM音声合成 - Miyazawa’s Pukiwiki 公開版

    HTSとは † HTS(修正HTK)+SPTK*1 HTKからの修正点 ストリーム依存のコンテキストクラスタリング 状態継続長モデルとクラスタリング F0モデリングのための状態出力確率 感情音声合成, 話者適応, モーフィング, 歌声合成 など. 言語に依存したコードは無い(どんな言語でも・歌唱音も合成可能) LPC, LSP, COC, 単位選択音声合成(CHATR), HMM音声合成(HTS), STRAIGHT など日技術の集積 さまざまな企業で使われている*2 ↑ HTSのインストール(Linux) † ここでは、32bit Linux コンピュータ(debian)*3にインストールする方法を説明します。 サンプルデータの音響モデルや辞書を使って音声合成を試すだけなら、hts_engine API のみインストールすればOKです。HTSによるHMM音声合成/HMMテキスト音声合

  • 自己組織化マップの概要 - Miyazawa’s Pukiwiki 公開版

    自己組織化マップ(Self-Organizing Maps, SOM)とは † 統計学的説明 : 多くのパラメータを使うことで近似的にノンパラメトリックで非線形なPCA(主成分分析)を実現する手法*1 PCAとは … 多次元のデータを、できるだけ情報量を落とすことなく、低次元に要約する。 例 : [数学の点, 国語の点, 理科の点, 社会の点] → [数学+理科の点, 国語+社会の点]*2 非線形PCAとは … 非線形関数であっても推定可能、SOM や カーネル主成分分析 など。 例 : 三角関数(データが原点を中心にした円弧上に存在する場合、x,yは偏角θの1次元で表現できる)*3 生理学的説明 : 大脳感覚野の特徴地図が知覚経験によって形成されていく様子を説明したモデル(の、簡易版)*4 網膜細胞の入力から、一次視覚野の方位選択性+眼優位性構造 を再現することができる。 応用的説明 :

  • 1