タグ

ブックマーク / note.com/hamachi_jp (4)

  • オーディオ超解像技術 AudioSR を試す|はまち

    低解像度の音声データを超解像化をする拡散ベースの生成モデル AudioSR が公表されていました。リンク先に変換サンプルなどもあり、音声や自然音、音楽など幅広いジャンルの例が示されています。高い再現度であるようなので、さっそく試してみました。 インストール!pip install git+https://github.com/haoheliu/versatile_audio_super_resolution実行!GPUメモリを16GBくらい消費します。Google Colab無料枠だとメモリが足らなくて動かない感じでした。 !audiosr -i /content/kurumi.wav変換例変換前(サンプリングレート8kHz)

    オーディオ超解像技術 AudioSR を試す|はまち
    misshiki
    misshiki 2023/09/19
    “低解像度の音声データを超解像化をする拡散ベースの生成モデル AudioSR”
  • 【論文紹介】大規模言語モデルにおけるニューロンの挙動について|はまち

    大規模言語モデルにおける人工ニューロンの挙動をテーマにした以下論文が面白かったので、ざっくり目についたキーワードを抜き出してみました。 理解不足など多分にあると思いますので、興味を持たれた方は、ぜひ原文をご確認ください。 概要LLMの内部構造を理解するため、パラメータの異なる125Mから66BまでのMeta社のOPTファミリーのモデル内部の人工ニューロンの挙動を分析した キーワード活性化しないニューロン(Dead Neurons)ネットワークの入力部付近の層では、多くの活性化しない「デッドニューロン」が存在しており、特に66B(660億)モデルでは、一部の層で70%以上のニューロンが活性化していない。 ネットワークの前半はデッドニューロンの割合が高く、後半はほとんどのニューロンが「活性化」している。 著者らは、この層間での疎さの違いは、初期層では「概念と対応するニューロン」の比率が後半の層

    【論文紹介】大規模言語モデルにおけるニューロンの挙動について|はまち
    misshiki
    misshiki 2023/09/13
    “大規模言語モデルにおける人工ニューロンの挙動をテーマにした以下論文が面白かったので、ざっくり目についたキーワードを抜き出してみました。”
  • 音声生成モデルAudioLDM2を試す|はまち

    AudioLDM2というText-to-Audio/Music 生成AIが公開されていたので試してみました。リンク先にはいろいろな音声生成サンプルが紹介されており、どれも高品質でいい感じです。Githubリポジトリはこちら。 概要テキストから、効果音生成: text-to-audio (TTA), 音楽生成: text-to-music (TTM), および 音声生成: text-to-speech (TTS)の共通フレームワーク フレームワークは「オーディオ言語: Language of Audio(LOA)」と呼ぶ汎用的なオーディオ表現を導入 条件付き入力は「オーディオ言語」に変換され、その後音声合成モデルで処理される テキスト効果音合成 (TTA)、テキスト音楽合成 (TTM)、テキスト音声合成 (TTS) での実験結果はSoTAを達成している とのこと https://audiol

    音声生成モデルAudioLDM2を試す|はまち
    misshiki
    misshiki 2023/08/15
    “AudioLDM2というText-to-Audio/Music 生成AIが公開されていたので試してみました。”
  • さらにブラッシュアップされたVicuna「StableVicuna-13B」を試す|はまち

    StableVicunaの概要非商用ライセンス 高いパフォーマンスを実現するために、Vicuna をベースモデルとして活用し、以下の3段階のRLHFパイプラインを採用して訓練しています。 具体的には、3つのデータセットを混合したものを用いて、ベースとなるVicuna モデルをさらに教師付き微調整(SFT)により訓練しています: OpenAssistant Conversations Dataset (OASST1)は、人間が生成し、人間が注釈を付けたアシスタントスタイルの会話コーパスで、35種類の言語、66,497の会話ツリーに分散した161,443件のメッセージから構成 GPT4All Prompt Generations、GPT-3.5 Turboで生成された437,605個のプロンプトとレスポンスのデータセット OpenAItext-davinci-003エンジンで生成された52

    さらにブラッシュアップされたVicuna「StableVicuna-13B」を試す|はまち
  • 1