タグ

ブックマーク / tihara.hatenadiary.org (6)

  • 「べ」と「で」と「げ」の違い・その4。 - IHARA Note

    日の日記は音声の話である。ようやく一歩研究が前進したかしていないかというところである。分野としては、計算音声学ということになるのだと思う。文系の音声学について工学的にアプローチしてみたということである。 私は今、/p/と/t/と/k/がどのように違うのかという謎にとり組んでいる(ここ三年間くらいずっととり組んでいる課題である)。広くいわれているのは第二フォルマントの周波数の時間変化で見分けがつくというものだが、「第二フォルマントの周波数の時間変化」そのものが探せない音声があったり、フォルマントを様々に変化させて音声を合成してもうまく/p/,/t/,/k/に聞こえなかったりしていたので(ほかの研究者からもちらほらそういう声が聞こえる)、おそらく広くいわれているこの仮説にはどこかに穴があるのだろうと思っている。そして、自分で地味に見分け方を探してみようとしている。 研究のアプローチとしては、

    「べ」と「で」と「げ」の違い・その4。 - IHARA Note
    gologo13
    gologo13 2011/02/20
    。/i/の音声を信号処理的に加工して/pi/,/ti/,/ki/を作るのが目標である.
  • 「べ」と「で」と「げ」の違い・その3。 - IHARA Note

    日の日記は子音の話である。これまでの私の経過を追っている方なら分かっていると思うが、子音の研究の道のりは険しい。 いつもの繰り返しになるが、私は子音というものを解明したいと思っている。母音についてはその物理特性がかなりのところまで分かっているが、子音についてはほとんど分かっていない。分かっていないままおよそこのあたりだろうと見当をつけてアプリケーションを開発したらなぜか動いてしまったというのが現状なのでなんとかしたい。 題に入ろう。今回は、人間が発声した母音のみの音声に、子音を付与することができないだろうかと試みてみた。従来は、人間の子音をそのままくっつけたり、一度それっぽいパラメータにしてからくっつけたりしていたのだが、そうではなくて今回は子音データを参照せずに手作業で加工して子音を付与する。成功すれば、子音というものがぐっと明確になるはずだった。 というわけで、結論からいえば成功し

    「べ」と「で」と「げ」の違い・その3。 - IHARA Note
  • コンピュータ将棋の学習の失敗談。 - IHARA Note

    日の日記は数年前の失敗談である。そして、コンピュータ将棋の話でもあり、機械学習の話でもある。 まずはざっくりとした話から始めよう。今のコンピュータ将棋というのは、探索と評価関数からできている。探索がおよそ読みに相当し、評価関数がおよそ大局観に相当する。この評価関数というのは以前は技術者が経験と勘に基づいて職人芸で作っていたそうなのだが、今は自動的なパラメータ学習によって作られている。 評価関数作成が職人芸から自動学習へ移り変わったのはまだつい数年前のことであり、これが大きなブレイクスルーだった。それ以前にも自動学習の試みはあったらしいが、実用的になったのはBonanzaというソフトからだそうである。 何をもとに自動学習しているのかといえば、プロ棋士やトップアマチュア棋士たちの棋譜である。ここからパラメータを自動決定している。棋士たちの棋譜を「模範解答」とし、それをはじき出すようなパラメー

    コンピュータ将棋の学習の失敗談。 - IHARA Note
  • 夢と見栄。 - IHARA Note

    私が修士のときに所属していた研究室には企業との共同研究を遂行している学生が常に複数人いた。それらの企業の開発者たちが言った言葉が未だに印象に残っている。 私はそのときその企業には関わっていなかったが、なぜか会議に同席していた。当時助手だった先生(今の助教相当)が開発者たちに、現在の進み具合と今後の方針を語り終えると、企業の人は少々不満げにこう言った。 「うちでできる細かいことはうちでやりますから、大学にはもっと夢を見てほしいんです」 助手の先生が説明した内容は、企業の人が言うほど重箱の隅をつついている感じではなく、大学の標準的なレベルだったと思うのだが、企業の人は「夢」を要求した。それはつまり、大学の標準的な研究が全て「細かいこと」であることを意味する。私にはそういったものの見方が新鮮だった。 その数年後、博士号を取得し、いろいろと単純な事情があって私は無職となった。無職の私はふらっと日

    夢と見栄。 - IHARA Note
  • 「何かが欠けている音声認識研究」についての話。 - 2009-12-26 - IHARA Note

    12月21日から22日にかけて、東京大学で「第11回音声言語シンポジウム」という学会が開かれ、その初日に東工大の古井貞煕先生が「何かが欠けている音声認識研究」という題名で講演をした。日の日記はその講演に対する感想である。 (ところで日の日記は下書きの段階で一度消したのであるが、音声研究者3名が読みたいというのでゴミ箱から引っ張り出してきた次第である。その際、加筆修正をした。) 私の感じた結論を最初に書いておくと、「欠けている何か」を補うのは他分野の人か、博士課程に進学しない修士の学生なのではないかと思っている。そしてその人たちは論文ではなくブログを書くべきだと思っている。と書いてもなんのことか分からないと思うので、これから順をおって書く。 古井先生の話は「音声認識技術の進歩が止まっている」というところから始まった。古井先生は国内外で有名な音声認識工学の研究者である。日音声認識界で知

    「何かが欠けている音声認識研究」についての話。 - 2009-12-26 - IHARA Note
  • 音声認識の現時点での限界。 - IHARA Note

    音声認識技術の限界を三つの例を通して語る。 一つ目の例は「ふっかつのじゅもん」である。この「ふっかつのじゅもん」についてはおそらくはてなのキーワードリンクを読めば分かると思うので、説明はしない。要するに、五十二文字のランダムなひらがなの羅列である。 「ドラゴンクエスト2」プレイ当時小学校低学年だった私は、このふっかつのじゅもんを一文字ずつ電話で伝えてもらったことがある。電話で伝えてもらった五十二文字のふっかつのじゅもんは、正常に動作した。つまり、私はランダムなひらがなの羅列を100%の精度で聞きとったことになる。 一方、現在の音声認識機に同じことをさせたらどうなるのかということを実験してみた。簡単に実験しただけなので、精度の数値に関してはあまり信用してほしくはないのだが、音声認識機は約六割程度の精度でしか「ランダムなひらがなの羅列」を認識してくれなかった。ただこの六割という精度は私の知って

    音声認識の現時点での限界。 - IHARA Note
  • 1