[B! 音声認識] yamikuro1226のブックマーク

京都大学河原達也教授の音声認識がもの凄かった

去る10月26日、NHK 教育テレビの「ろうを生きる難聴を生きる」を偶然みました。そこでは、京都大学の河原達也教授による「音声認識技術のノートテークへの適用」が紹介されていました。河原先生が話すと即座に音声認識されてスクリーンに文字が表示されるのですが、驚いたのはその認識精度の高さでした。全く普通の話し方で、見たところ完璧に認識されていたのです。音声認識技術で、聾者が授業に参加できる「ノートテイク (Note-take）」とは「大学などでの講義で聞こえる人が聞こえない学生の隣に座りノートを取ること」だそうです。聾者にとっては聴覚情報は摂取不能ですから、即座に視覚情報に変換することで、リアルタイム性を損ねることなく講義に参加できるというのでしょう。ただし、この変換を人間が行うのはコストが掛かる筈です。だから、マシンで行いたいというコンテクストでしょう。講義の音声情報を文字情報に変換す

yamikuro1226 2008/10/31

音声認識

リンク

大語彙連続音声認識システムJulius

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

yamikuro1226 2008/10/31

音声認識

リンク

UT OpenCourseWare

東京大学の講義や公開講座の映像・音声をポッドキャストでもお楽しみいただけます。東京大学が誇る「世界の叡智」をいつでも、どこでも、より多くの方々に体験していただきたいと考えています。 MIMA Search とは、UT OCW、MIT OCWに公開されている各授業のシラバスの関係を構造的に見ることができる検索システムです。MIMA Searchは、シラバスに含まれている各種の情報をもとに、検索結果を「点」と「線」でネットワーク表現します。講義：計数工学科(数理工学/数理情報工学/システム情報工学)4年　応用音響学　夏学期　火曜日 8:30-10:00 講義項目： 1. 音声信号とは？ (音声学の初歩、ピッチとフォルマント) 2. 音声分析 (音声スペクトル、ケプストラム解析、線形予測(LPC)分析、偏自己相関(PARCOR)分析、線スペクトル対(LSP)分析) 3. 音声符

yamikuro1226 2008/09/30

リンク

雑音環境下単語認識のための複素周波数領域における参照再構成法 - IHARA Note

自分の論文が出たのでそのことについて書く。日本音響学会の2008年9月の学会誌に載っている。音響学会に問い合わせたところ、自分がウェブにアップロードする分には構わないとのことなので、ヤフーのブリーフケースにアップロードした（でも今の自分の環境からは読めない。別の環境では読める。文字コードのせいだろうか）。onsei->onkyo-gakkai-200809.pdfにある。なお、版組をするときに誤字脱字などは修正され、表の書式も一部変更されている。 2009-01-25追記：ヤフーのブリーフケースが無料サービスを停止するそうなので、マイクロソフトのSkyDriveに移した（健紘->SkyDrive->公開->papers->refrec_onkyogakkai.pdfからもたどれる）。内容について書く。建前上のストーリーとしては、題名に書いたとおり、雑音環境下での音声認識を目的としている。

yamikuro1226 2008/09/09

音声認識

リンク

たまには専門のことを。 - IHARA Note

音声工学をずっとやってきたはずなのに、最近十件の中に音声が少なかったので、音声のことを書く。音声工学といっても様々な応用分野があり、現在世間に流行しているバイオメトリクスなども古くから研究されていたり、比較的新しいところでは感情認識なども研究されていたりする。全てについて一度に語ることは私にはできないので、音声認識について語る。音声認識（機械による自動音声認識）の性能が使い物になるレベルか使い物にならないレベルかということに関しては、様々な人が様々なことを言っているが、どの人も「まだ性能が上がる余地はある」ということに関しては共通して思っているようである。ただし、どの部分をいじれば性能が上がるかということに関しては見解がばらばらである。機械による音声認識というのは、大きく二つの部分に分かれている。音響モデルと言語モデルである。どちらもさらに細かく分類することができ、それぞれの人がそれぞ

yamikuro1226 2008/07/09

リンク

The Use of Overlapped Sub-Bands in Multi-Band, Multi-SNR, Multi-Path Recognition of Noisy Word Utterances - IHARA Note

電子情報通信学会の英論文誌に、私が博士課程のときの後輩（当時修士課程）の論文が出た。The Use of Overlapped Sub-Bands in Multi-Band, Multi-SNR, Multi-Path Recognition of Noisy Word Utterancesである。彼と最も頻繁に最も長い時間ディスカッションしていたのが私なので、私の名前も第二著者として載せてもらっている。後ろの二人は先生である。技術とは関係のない話からすると、彼は非常に勤勉だった。頭も使っていたし、手もよく動かした。また、英語は日常会話ならば全く問題なく流暢に喋ることができた。体力もあった。できる学生の典型像である。できる学生というのは、決して「たまにふらっと研究室に来てものすごい手際のよさで研究を終わらせていく」学生ではなく、「長時間研究室に滞在してねばり強く問題の解決にあたっていく

yamikuro1226 2008/06/01

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

音声認識に関するyamikuro1226のブックマーク (6)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス