並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 10 件 / 10件

新着順 人気順

deeplearningの検索結果1 - 10 件 / 10件

  • 大規模言語モデル (LLM) の技術と最新動向

    マルチメディア,分散,協調とモバイル(DICOMO2024)シンポジウムでの招待講演の資料です。 https://dicomo.org/

      大規模言語モデル (LLM) の技術と最新動向
    • レコメンドアルゴリズム入門:基礎から応用まで実装に必要な知識を解説 - Qiita

      1: 購入 0: 閲覧(したが購入してない) -: 未観測 ユーザーベース型 ユーザー同士の類似度を計算 「あなたと購入履歴の似たユーザーはこんな商品を買っています」 行を各ユーザーのベクトルとみなして、似たユーザーを見つける(上位N人) 似たユーザーが購入しているアイテムを推薦する(N人の平均値などで購入しそうな順に提示) アイテムベース型 アイテム同士の類似度を計算 「この商品を買ったユーザーはこんな商品も買ってます」 列を各アイテムのベクトルとみなして、類似度の高いアイテムを推薦する(上位M件) 類似度計算には、コサイン類似度やJaccard類似度が使われる。 類似度を計算する際に、未観測「-」は適当な値(0, 0.5など)で埋めるか、無視をする。 ログデータを使うため、情報の少ない新規アイテム/新規ユーザーに弱いコールドスタート問題がある。 コンテンツベースフィルタリング アイテム

        レコメンドアルゴリズム入門:基礎から応用まで実装に必要な知識を解説 - Qiita
      • 角刈りオジサンから美少女ボイス 「GPU不要で超低遅延」なリアルタイム音声変換ソフトを見てきた

        ブースは、韓国の音声AI企業Supertoneが出展したもの。角刈りオジサンの美少女ボイスは、リアルタイム音声変換ソフト「SHIFT」のデモによるものだった。このSHIFT、少女だけでなく少年、成人女性、成人男性、渋いおじいさん、悪魔などさまざまな声がプリセットされており、リアルタイムかつ高精度に声を変換できるのが特徴。 独自の音声合成基盤モデル「NANSY」(Neural Analysis & Synthesis)を採用しており、ユーザーの声の事前学習も、10秒程度のサンプルスクリプトを読み上げるだけで完了。ユーザーとキャラクターの音声の混合比率や感情の表現度合い、音の高低なども細かく調整可能だ。 同様の技術として「RVC」(Realtime Voice Changer)などが有名だが、快適に利用するにはNVIDIAの高性能なGPUを必要とする。一方、SHIFTはCPUのみで47ミリ秒と

          角刈りオジサンから美少女ボイス 「GPU不要で超低遅延」なリアルタイム音声変換ソフトを見てきた
        • もはや仮歌は自分の歌でOK?AIでボーカルを自在に差し替えるSoundID VoiceAI。声を楽器に差し替えることも|DTMステーション

          毎日のように、新たな生成AIのシステムが発表され、1年前には想像もつかなかったような時代に入ってきていますが、また非常にユニークで画期的なシステムが登場してきました。ヨーロッパのラトビアのメーカー、Sonarworksが開発したSoundID VoiceAI、というもので、ボーカルトラックをまったく別のシンガーが歌ったものに差し替えるというソフトです。つまり歌詞やメロディーはそのままに、違う歌声に差し替えることができる、というわけです。それに近いことはSynthesizer Vの「オーディオ・ノート変換」機能を利用することで実現していましたが、SoundID VoiceAIではプラグインエフェクトとして声を変換できるため、より手軽に扱えるほか、非常に多くのシンガーが利用できるというのがメリットとなっています。 さらにSoundID VoiceAIがすごいのは変換ターゲットが必ずしも人間のボ

            もはや仮歌は自分の歌でOK?AIでボーカルを自在に差し替えるSoundID VoiceAI。声を楽器に差し替えることも|DTMステーション
          • 【都知事選2024】AIによるマニフェストへの質疑応答システム「AIあんの」の裏側を公開します!|Jun Ito

            安野たかひろ事務所 技術チームリーダーの伊藤です。 安野は大学時代の友人で、彼が今回の選挙戦で実現しようとしている、老若男女の意見を募り、誰も取り残さないことを旨とする選挙活動・民主主義の形に共感し、ぜひ力になりたいと思いPdM・エンジニアとして手伝いをしております! この記事では、先日公開になった「AIあんの」のシステムについて、技術者の観点から、実現しようとしている状態と、技術的な裏側について解説してみようと思います。 AIあんのとはAIあんのは、安野たかひろの政策を学習したAI応答システムが、本人のアバターと声色によって、Youtube Liveと電話という2つの経路で、みなさまのご意見やご質問に回答するシステムです。 配信でAIあんのに質問したい場合は、以下からアクセスしてみてください。 (URLは変更になる場合があります。その際はアカウントから配信を探してみてください。) また電

              【都知事選2024】AIによるマニフェストへの質疑応答システム「AIあんの」の裏側を公開します!|Jun Ito
            • 自動プロンプト最適化をやってみた - Algomatic Tech Blog

              はじめまして!データサイエンティストの山内(@jof_5)です。 本記事では、日々、プロンプト開発されている皆様に向けて、プロンプトを効率的に開発する手法の一つである「自動プロンプト最適化」について記載いたします。 1. プロンプトエンジニアリングの必要性と課題 2. 自動プロンプト最適化について 2-0. 最適なプロンプトとは何か?☕ 2-1. 自動プロンプトの概要 2-2. 自動プロンプト最適化のアーキテクチャ ①Task Executor: LLMによるタスクの実行 ②Output Evaluator: 出力の評価 ③ Prompt Improver: 最適なプロンプトの生成 3. 実験結果と考察 3-1. 自動プロンプト最適化の有効性の検証 3-2. 最適化プロンプトの生成過程 3-3. 最適化されたプロンプトの特徴 3-4. プロンプト生成用LLM(Prompt Improver

                自動プロンプト最適化をやってみた - Algomatic Tech Blog
              • Generative Models

                2024年6月13日に大阪大学大学院 情報科学研究科で行った「情報科学特別講義Ⅰ」の講義資料です。 https://www.ist.osaka-u.ac.jp/japanese/news/newsDetailNews.php?id=308

                  Generative Models
                • BM42: New Baseline for Hybrid Search - Qdrant

                  For the last 40 years, BM25 has served as the standard for search engines. It is a simple yet powerful algorithm that has been used by many search engines, including Google, Bing, and Yahoo. Though it seemed that the advent of vector search would diminish its influence, it did so only partially. The current state-of-the-art approach to retrieval nowadays tries to incorporate BM25 along with embedd

                    BM42: New Baseline for Hybrid Search - Qdrant
                  • NVIDIA、AIトレーニング用合成データ生成モデル「Nemotron-4 340B」を商用利用可でリリース

                    米NVIDIAは6月14日(現地時間)、LLMのトレーニング用オープン合成データ生成モデルシリーズ「Nemotron-4 340B」を発表した。独自のオープンモデルライセンス(PDF)の下、「あらゆる業界の商用アプリケーション向けLLM」のトレーニングに使うデータセットを合成できるとしている。つまり、商用利用も可能だ。 LLMの開発では、高品質で多様なデータセットでのトレーニングが不可欠だが、ネットなどから収集したデータには偏りや不正確なものが含まれる可能性があり、量にも限りがある。そのため、合成データの生成に注目が集まっている。 Nemotron-4 340Bには、合成データ生成のパイプラインを形成するbase、instruct、rewardの3つのモデルが含まれる。baseモデルは、9兆個のトークでトレーニングされたカスタマイズの基盤となるモデル。独自データを組み込むことで、このモデル

                      NVIDIA、AIトレーニング用合成データ生成モデル「Nemotron-4 340B」を商用利用可でリリース
                    • Free Voice Isolator and Background Noise Remover | ElevenLabs

                      Extract crystal-clear speech from any audio Our vocal remover strips background noise for film, podcast, and interview post production

                        Free Voice Isolator and Background Noise Remover | ElevenLabs
                      1