ブックマーク / note.com/npaka (7)

  • 音楽生成AI のリリース年表|npaka

    AI 🤝 Music Suno can now sing! Our new model generates music with vocals, and you can try it now on Diśčòrd. See below for some early examples and an invite link to our open beta: pic.twitter.com/CjjfYM2YRZ — Suno (@suno_ai_) July 21, 2023

    音楽生成AI のリリース年表|npaka
    stang499
    stang499 2023/12/18
  • 大規模モデルを単一GPUで効率的に学習する方法|npaka

    以下の記事が面白かったので、かるくまとめました。 ・Methods and tools for efficient training on a single GPU 1. LLMを単一GPUで効率的に学習する方法大規模モデルの学習では、次の2つを考慮する必要があります。 ・スループット・学習時間 ・モデルのパフォーマンス 「スループット」 (サンプル / 秒) を最大化すると、学習コストの削減につながります。これは通常、GPUメモリを限界まで利用することで実現されます。必要なバッチサイズがメモリオーバーする場合は、「Gradient Accumulation」などの「メモリの最適化」が必要になります。 ただし、「推奨バッチサイズ」がメモリに収まる場合は、学習が遅くなる可能性があるため、「メモリの最適化」を適用する必要はありません。どのバッチサイズが最良の結果をもたらすかを決定し、それに応じ

    大規模モデルを単一GPUで効率的に学習する方法|npaka
    stang499
    stang499 2023/10/03
  • 最近話題になった 音楽生成AI まとめ|npaka

    最近話題になった「音楽生成AI」をまとめました。 1. AudioGenテキストからオーディオを生成するAIモデルです。「風が吹く中で口笛をする音」や 「大勢の歓声の中で話す男性の声」といったテキストから、それらしい音を生成してくれます。 現在のところ、モデルやAPIは提供されていません。 We present “AudioGen: Textually Guided Audio Generation”! AudioGen is an autoregressive transformer LM that synthesizes general audio conditioned on text (Text-to-Audio). 📖 Paper: https://t.co/XKctRaShN1 🎵 Samples: https://t.co/e7vWmOUfva 💻 Code & mod

    最近話題になった 音楽生成AI まとめ|npaka
    stang499
    stang499 2022/11/06
  • 図解 GPT-2|npaka|note

    以下の記事が面白かったので、ざっくり翻訳しました。 ・The Illustrated GPT-2 (Visualizing Transformer Language Models) はじめに今年は、機械学習の素晴らしい応用が見られました。「GPT-2」は、「言語モデル」が作り出せると予想していたものをはるかに超える、首尾一貫した情熱的なエッセイを書きました。「GPT-2」は特に目新しいアーキテクチャではありませんでしたが、大規模なデータセットで学習された、非常に大規模なTransformerベースの「言語モデル」でした。 【パート1】  GPT-2と言語モデル1-1. 言語モデル「言語モデル」は、文章の一部を見て次の単語を予測するモデルです。最も有名な「言語モデル」は、スマートフォンのキーボードアプリの現在入力を元に次の単語を提案してくれる機能です。 「GPT-2」も、基的にこの次の単語

    図解 GPT-2|npaka|note
    stang499
    stang499 2020/10/10
  • Image GPT|npaka

    以下の記事を参考に書いてます。 ・OpenAI BLOG : Image GPT 1. はじめに言語で学習した大規模モデルがもっともらしい(論理的に一貫性がある)なテキストを生成できるのと同じように、画像で学習した大規模モデルがもっともらしい画像を生成できることを発見しました。サンプル品質と画像分類精度の相関関係を確立することにより、私たちの教師なし学習の生成モデルは、畳み込みに匹敵する特徴を含むことを示しています。 2. Image GPT「教師なし学習」と「自己教師あり学習」(人間がラベル付けしたデータを用いない学習)は、機械学習の長期にわたる課題です。最近では、「BERT」「GPT-2」「RoBERTa」「T5」などのTransformerモデルが、様々な言語タスクでトップの性能を達成しています。しかし、画像分類のための強力な特徴量を生成することには成功していません。私たちの研究は、

    Image GPT|npaka
    stang499
    stang499 2020/09/06
    “GPT”
  • 合成データセットによるコンピュータビジョンモデルの改善|npaka

    以下の記事を参考にして書いてます。 ・Why Unity claims synthetic data sets can improve computer vision models 1. はじめにUnity機械学習エンジニアである「Cesar Romero」は、「Transform 2020」でのプレゼンテーションで、「合成データ」(Synthetic Data)を使って自動運転車やロボットを訓練することの有効性を主張しました。 彼は、「実世界データの課題」を指摘し、それに対する「合成データの利点」を紹介しました。 2. 規制上の懸念はじめに、GDPR(EU一般データ保護規則)など規制上の懸念があります。 これらの規制は、データが個人に属し、収集者に属さないことを強調しようとしています。その場合、全てのデータを盲目的に収集し、それを使って学ぶことは困難になる可能性があります。 しかし、シ

    合成データセットによるコンピュータビジョンモデルの改善|npaka
    stang499
    stang499 2020/08/30
  • 事前学習済みの TensorFlow.js モデル のまとめ|npaka

    事前学習済みの  TensorFlow.js モデルをまとめました。 1. MobileNet ImageNetのラベルで画像分類を行う。 2. PoseNet 人間の姿勢推定を行う。 ◎ キーポイント 0: nose 1: leftEye 2: rightEye 3: leftEar 4: rightEar 5: leftShoulder 6: rightShoulder 7: leftElbow 8: rightElbow 9: leftWrist 10: rightWrist 11: leftHip 12: rightHip 13: leftKnee 14: rightKnee 15: leftAnkle 16: rightAnkle◎ 単一姿勢推定 { "score": 0.32371445304906, "keypoints": [ { "position": { "y": 76

    事前学習済みの TensorFlow.js モデル のまとめ|npaka
    stang499
    stang499 2020/06/10
  • 1