記事へのコメント1

    • 注目コメント
    • 新着コメント
    sh19910711
    "Flash Attention: 推論ではあまり効果が見られない / GPU1枚で学習を行うためにDeep SpeedのZeRO-2を使用 / 系列長を長くして1ステップ当たりに含まれるトークン数を増やすと、学習が効率化されて高速化される傾向" 2023

    その他

    注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

    アプリのスクリーンショット
    いまの話題をアプリでチェック!
    • バナー広告なし
    • ミュート機能あり
    • ダークモード搭載
    アプリをダウンロード

    関連記事

    Flash AttentionとDeep Speedを使ってLLMをGPU1枚でフルファインチューニングする - Qiita

    TL;DR Deep Speedのoffload_optimizer機能を使って、VRAM40GBのGPU1枚で3.6BパラメータのLLMをファイン...

    ブックマークしたユーザー

    • mamiyu83222024/11/06 mamiyu8322
    • sh199107112024/04/28 sh19910711
    • yuiseki2024/03/31 yuiseki
    すべてのユーザーの
    詳細を表示します

    同じサイトの新着

    同じサイトの新着をもっと読む

    いま人気の記事

    いま人気の記事をもっと読む

    いま人気の記事 - テクノロジー

    いま人気の記事 - テクノロジーをもっと読む

    新着記事 - テクノロジー

    新着記事 - テクノロジーをもっと読む

    同時期にブックマークされた記事

    いま人気の記事 - 企業メディア

    企業メディアをもっと読む