タグ

2008年9月19日のブックマーク (10件)

  • 話者認識 - Wikipedia

    話者認識(わしゃにんしき、英: speaker recognition)は、人間の声から個人を認識(識別や認証)するコンピュータによる処理。音声から特徴を抽出し、モデル化し、それを使って個人の声の認識を行う。 誰の声であるかを識別する「話者認識」は、何を話しているかを認識する「音声認識」とは異なる。英語では話者認識を voice recognition とも呼ぶが、これを音声認識の意味で間違って使っている場合がある。 話者認識は約40年前、アナログのフィルタの出力を平均化したもので一致するかどうかを調べるという形式で始まった。話者認識は、人によって異なる声の音響的特徴を利用する。そういった音響パターンは、解剖学的特徴(咽喉や口の大きさや形状)と生まれ育ってきた環境(話すスピードやスタイル)に起因する。このように後天的に学習したパターンも声に影響するため、話者認識は「行動的特徴」を用いた生体

  • 音声認識 - Wikipedia

    音声認識(おんせいにんしき、英: speech recognition)は声がもつ情報をコンピュータに認識させるタスクの総称である[1]。ヒトの(天然)音声認識と対比して自動音声認識(英: Automatic Speech Recognition; ASR)とも呼ばれる[2]。 例として文字起こしや話者認識が挙げられる。 音声認識は「音声に含まれる情報を認識するタスク」の総称であり、具体的に解かれる問題の例として以下が挙げられる: Speech-to-Text (STT): 含まれる言語情報を文字に変換するタスク。いわゆる文字起こし キーワード認識(英語版)(KWS): 事前に設定されたキーワードの出現を認識するタスク。例として「ヘイ、Siri」 音声認識をサブタスクとして含むタスクには以下が挙げられる: 音声操作: 音声によるアプリの操作。SST/KWSで音声情報を取り出し、これをコンピ

  • IBMの音声認識ソフトウェアがオープンソースに | エンタープライズ | マイコミジャーナル

    米IBMは13日(米国時間)、ニューヨークで開催中の音声認識技術に関する会議「SpeechTEK 2004」において、同社研究部門が開発した音声認識ソフトウェア「Reusable Dialog Components (RDC)」をオープンソース化することを発表した。RDCのソースコードはApache Software Foundation(ASF)に寄贈され、オープンソフトウェアライセンスの1つであるApache Licenseのもと一般に公開される。 RDCは、Java Server Page(JSP)をベースとするコンポーネント状のプログラムで、日付や時間、通貨や場所などの基的な語いに対応する。活用事例としては、電話で航空機チケットの予約を受け付けるシステムなどが考えられている。また、RDCがオープンソース化されることにより、ベンダーの違いを乗り越え音声認識機能に関する互換性が実現で

  • 大語彙連続音声認識システムJulius

    A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

    大語彙連続音声認識システムJulius
  • sndpeek : real-time audio visualization

    real-time 3D animated display/playback can use mic-input or wav/aiff/snd/raw/mat file (with playback) time-domain waveform FFT magnitude spectrum 3D waterfall plot lissajous! (interchannel correlation) rotatable and scalable display freeze frame! (for didactic purposes) real-time spectral feature extraction (centroid, rms, flux, rolloff) available on MacOS X, Linux, and Windows under GPL part of t

  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • 講義資料 配列解析アルゴリズム特論I 情報生命科学基礎/演習 他 -渋谷哲朗

    平成20年度 東京大学大学院 情報理工学系研究科・コンピュータ科学専攻 配列解析アルゴリズム特論I 4/10 4/17 4/24 5/1 5/8 5/15 5/22 5/29 (The problem to be reported - in English) 6/5 6/12 6/19 7/3 7/10 7/17 東京大学 理学部・情報科学科 情報科学特別講義3 (情報科学とバイオインフォマティクス) 6/10 7/15 7/22 東京大学大学院 新領域創成科学研究科・情報生命科学専攻 情報生命科学基礎/演習 5/27 6/17 京都大学大学院 薬学研究科・医薬創成情報科学専攻 情報科学概論 6/3 中央大学大学院 理工学系研究科・物理学専攻 物理学特別講義第二 TBA 創価大学工学部 生命情報工学科 TBA TBA 戻る Copyright (c) 2004- Tetsuo

  • 開発者には”プロ意識”が必要である~Bjarne Stroustrup氏との対話~

    はじめに 「弊社ではありえないプロジェクトが突如降って湧いてくるのが常態化しています。それでもなんとかなっているのです!」 これは、ある著名な企業のプロジェクトマネージャが筆者に語った言葉です。その社名は、ほぼ毎日のように巨大マスコミに登場していることもあり、世間一般には時代の先頭を走る優良企業の1つと考えられているはずです。 この能弁なプロジェクトマネージャが引率してきた10人ほどの若いプログラマたちは、終始押し黙っていたのを今でも鮮明に記憶しています。著名な企業を支えるありえないプロジェクトをなんとかこなす人々。筆者は彼らの作業風景を想像しながら、その胸中が大変気になりました。 C++を設計・実装したStroustrup氏は、ソフトウェア業界の未熟さを指摘すると共に、”プロ意識”の重要性を強調してやみません。 今回の質問意図 既に紹介しているように、Stroustrup氏はC++入門書

    開発者には”プロ意識”が必要である~Bjarne Stroustrup氏との対話~
  • 「CDイメージをダウンロード」は英語わかる人にはわからないらしい - 狐の王国

    先日、カナダに住む日人のIRC仲間がいまだにWindows98を使ってるので、ubuntuにでも入れ換えたらどうだ、という話をした。 で、さっそく彼女はubuntuの日語サイトへ行ったのだが、ISOイメージが見付からないらしい。 http://www.ubuntulinux.jp/products/JA-Localized/download ダウンロードページはここなのだが、「CDイメージ」という言葉が理解できなかったらしい。むしろCDのジャケットかラベルの画像のデータなんだな、という理解をしたんだそうだ。 まあ確かにimageって普通には画像だよなあ、とは思うんだが、このへん普通に用語としてISO9660イメージのことを言うんでないのかと思ったのだが。 http://www.ubuntu.com/getubuntu/download 英語サイトを確認してみると、確かに「CD imag

    「CDイメージをダウンロード」は英語わかる人にはわからないらしい - 狐の王国
    shiumachi
    shiumachi 2008/09/19
    bootable CD image だったら通じるのか
  • もうひとつの現実歪曲空間 - NextReality

    (すでにこういうことを把握している人には当たり前すぎる内容かも。今週は論文指導・ポスター指導・プレゼン指導が山積みで、実は同じ原理を繰り返し説明しているだけだと気づいたのでメモしておきます)。 よいプレゼンをする方法も、よい文章(論文)書く方法も、極意はただひとつなのだと思っている。研究内容で事業内容でもおよそ他人に読んでもらったり聞いてもらったりするときのポイントは、 プレゼンする人はその内容を知りすぎている。でも聴く人は生まれてはじめてそのスライドを見る。始めてその話を聴く聴衆の頭の動きをどれだけ予測できるか。シミュレートできるか。 という一点につきる。要は三人称視点で自分のやっていることが見れるか、ということで、金出先生の有名な「プレゼンスライドは重要な順に並べろ」というのも、高城剛氏がコンテンツの極意として語っていた「サビ頭の原則」というのも、ここから演繹できる。もっとミクロな、例

    もうひとつの現実歪曲空間 - NextReality
    shiumachi
    shiumachi 2008/09/19
    ここからさらに上位概念にもっていくと、「見る人の側に立って話す」という味も素っ気もない格言に落ち着く。