並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 3 件 / 3件

新着順 人気順

フィラーの検索結果1 - 3 件 / 3件

  • GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog

    この記事はenechain Advent Calendar 2024の14日目の記事です。 はじめに こんにちは。enechainで統計・機械学習モデルの構築やLLM(大規模言語モデル)の活用推進を担当している@udon_tempuraです。 私達のチームでは、以前紹介した会議動画要約のノウハウを活用し、 社内用の動画・音声文字起こしツールを構築・運用しています。 本記事では、その精度向上の仕組みについて紹介します。 実装も比較的少なく実現できたため、セキュリティなどの関係により内製で文字起こしを構築している方々の参考になれば幸いです。 はじめに 背景と課題 システム要件 システム実装 アーキテクチャ 入力データ形式 ドメイン固有用語の管理 処理フロー Cloud Speech-to-Textによる文字起こし Gemini 1.5 Flashによる認識処理 Gemini 1.5 Proによ

      GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog
    • 3大会議中に気になるフィラー的なやつ

      ちょっと たぶん いちおう あと一つは、なんか

        3大会議中に気になるフィラー的なやつ
      • 「うんうんうん」「はいはいはい」と会話の間を埋め、被せるようにグイグイ対話する日本語専用リアルタイム音声会話AI「J-Moshi」を名古屋大学が開発(生成AIクローズアップ) | テクノエッジ TechnoEdge

        2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、日本語でリアルタイムに音声対話してくれるAIモデル「J-Moshi」に注目します。名古屋大学の研究者らが開発したこのAIモデルは、ユーザーの声を聞いて内容に応じた発話を同時に行います。 ▲J-Moshiのプロジェクトページ J-Moshiは、英語の対話システム「Moshi」をベースに開発され、人間同士の自然な会話で見られる発話の重なり(オーバーラップ)や相槌などの同時双方向的な特徴を再現できる日本語対応システムです。モデルサイズが7Bと軽量です。 特徴的なのが、ユー

          「うんうんうん」「はいはいはい」と会話の間を埋め、被せるようにグイグイ対話する日本語専用リアルタイム音声会話AI「J-Moshi」を名古屋大学が開発(生成AIクローズアップ) | テクノエッジ TechnoEdge
        1