misshikiのブックマーク - はてなブックマーク

misshiki id:misshiki

ブックマーク / note.com/hamachi_jp (4)

オーディオ超解像技術 AudioSR を試す｜はまち
低解像度の音声データを超解像化をする拡散ベースの生成モデル AudioSR が公表されていました。リンク先に変換サンプルなどもあり、音声や自然音、音楽など幅広いジャンルの例が示されています。高い再現度であるようなので、さっそく試してみました。インストール!pip install git+https://github.com/haoheliu/versatile_audio_super_resolution実行！GPUメモリを16GBくらい消費します。Google Colab無料枠だとメモリが足らなくて動かない感じでした。 !audiosr -i /content/kurumi.wav変換例変換前（サンプリングレート8kHz）
misshiki 2023/09/19
“低解像度の音声データを超解像化をする拡散ベースの生成モデル AudioSR”

音声処理
リンク
【論文紹介】大規模言語モデルにおけるニューロンの挙動について｜はまち
大規模言語モデルにおける人工ニューロンの挙動をテーマにした以下論文が面白かったので、ざっくり目についたキーワードを抜き出してみました。理解不足など多分にあると思いますので、興味を持たれた方は、ぜひ原文をご確認ください。概要LLMの内部構造を理解するため、パラメータの異なる125Mから66BまでのMeta社のOPTファミリーのモデル内部の人工ニューロンの挙動を分析したキーワード活性化しないニューロン（Dead Neurons）ネットワークの入力部付近の層では、多くの活性化しない「デッドニューロン」が存在しており、特に66B（660億）モデルでは、一部の層で70%以上のニューロンが活性化していない。ネットワークの前半はデッドニューロンの割合が高く、後半はほとんどのニューロンが「活性化」している。著者らは、この層間での疎さの違いは、初期層では「概念と対応するニューロン」の比率が後半の層
misshiki 2023/09/13
“大規模言語モデルにおける人工ニューロンの挙動をテーマにした以下論文が面白かったので、ざっくり目についたキーワードを抜き出してみました。”

自然言語処理

ディープラーニング
リンク
音声生成モデルAudioLDM2を試す｜はまち
AudioLDM2というText-to-Audio/Music 生成AIが公開されていたので試してみました。リンク先にはいろいろな音声生成サンプルが紹介されており、どれも高品質でいい感じです。Githubリポジトリはこちら。概要テキストから、効果音生成: text-to-audio (TTA), 音楽生成: text-to-music (TTM), および音声生成: text-to-speech (TTS)の共通フレームワークフレームワークは「オーディオ言語: Language of Audio(LOA)」と呼ぶ汎用的なオーディオ表現を導入条件付き入力は「オーディオ言語」に変換され、その後音声合成モデルで処理されるテキスト効果音合成 (TTA)、テキスト音楽合成 (TTM)、テキスト音声合成 (TTS) での実験結果はSoTAを達成しているとのこと https://audiol
misshiki 2023/08/15
“AudioLDM2というText-to-Audio/Music 生成AIが公開されていたので試してみました。”

人工知能

自然言語処理

音声処理
リンク
さらにブラッシュアップされたVicuna「StableVicuna-13B」を試す｜はまち
StableVicunaの概要非商用ライセンス高いパフォーマンスを実現するために、Vicuna をベースモデルとして活用し、以下の3段階のRLHFパイプラインを採用して訓練しています。具体的には、3つのデータセットを混合したものを用いて、ベースとなるVicuna モデルをさらに教師付き微調整（SFT）により訓練しています： OpenAssistant Conversations Dataset (OASST1)は、人間が生成し、人間が注釈を付けたアシスタントスタイルの会話コーパスで、35種類の言語、66,497本の会話ツリーに分散した161,443件のメッセージから構成 GPT4All Prompt Generations、GPT-3.5 Turboで生成された437,605個のプロンプトとレスポンスのデータセット OpenAIのtext-davinci-003エンジンで生成された52
misshiki 2023/05/01
自然言語処理

人工知能

コンピュータビジョン
リンク
1