2023年8月25日のブックマーク (3件)

  • 脳信号だけでアバターを操作。表情や音声を復元、対話することに成功【研究紹介】

    脳信号だけでアバターを操作。表情や音声を復元、対話することに成功 米研究者らが発表【研究紹介】 2023年8月25日 カリフォルニア大学サンフランシスコ校とバークレー校に所属する研究者らが発表した論文「A high-performance neuroprosthesis for speech decoding and avatar control」は、脳の信号だけでデジタルアバターを操作できるシステムを提案した研究報告である。 実験では、脳幹の脳卒中で重度の麻痺を持つ女性が、このブレイン・コンピュータ・インタフェース(BCI)を使ってデジタルアバターを通じて会話することに成功した。 ▲脳信号だけからデジタルアバターの表情と声を復元する 同研究チームは、先行する研究において、脳幹の脳卒中を何年も前に経験した男性の脳信号を文字に解読する技術を実証した。今回の研究は、より進んでおり、人の顔の動き

    脳信号だけでアバターを操作。表情や音声を復元、対話することに成功【研究紹介】
    Seamless
    Seamless 2023/08/25
    脳卒中で重度の麻痺を持つ女性に電極を埋め込み考えた事を脳信号からアバターの音声(声が出てた時の自分の声)と表情として再現することに成功。毎分80ワード近くの速度で音声を出力。
  • “数学特化”の大規模言語モデル「WizardMath」 米Microsoftなどが開発 Llamaモデルを強化

    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Microsoft中国科学院に所属する研究者らが発表した論文「WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct」は、数学的推理能力を強化するモデルを提案した研究報告である。このモデルは、オープンソースの事前学習済み大規模言語モデル(LLM)である「Llama-2」に対して適用することで実現する。 米MetaのLlamaモデルシリーズは、オープンソース革命を引き起こし、クローズドソースのL

    “数学特化”の大規模言語モデル「WizardMath」 米Microsoftなどが開発 Llamaモデルを強化
    Seamless
    Seamless 2023/08/25
    MetaのLlama-2を微調整し数学的推論能力を向上させる手法。WizardMathはどのオープンソースLLMより,ChatGPT-3.5,Claude Instant-1,GoogleのPaLM-2などよりも数学精度がよかった。
  • 複数人の会話から特定の1人だけを音声識別する手法 米NVIDIA「CONF-TSASR」開発

    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 話者プロファイルと補助発話(ターゲット話者)が与えられた重複多話者環境において、「単一チャネル話者自動音声認識」という特定の話者の発話を書き起こすタスクがある。この研究では、エンド・ツー・エンドの単一チャネル話者自動音声認識「CONF-TSASR」を提案する。 このモデルは、TitaNetベースの話者埋め込みモジュール、Conformer(TransformerとCNNを組み合わせたモデル)ベースのMaskNet、ASRモジュールから構成される。TitaNetは目標話者の補助発話から話者埋め込みを抽出する。MaskNetはConformer

    複数人の会話から特定の1人だけを音声識別する手法 米NVIDIA「CONF-TSASR」開発
    Seamless
    Seamless 2023/08/25
    話者情報を与えると複数が同時に話す会話の中でも特定の人物の声だけを抽出して書き起こす技術。