tasukuchanのブックマーク - はてなブックマーク

大規模言語モデルを自作しよう！(Transformers+DeepSpeed+torch.compile+flash_attn2）
本記事は、LLM Advent Calendar 2023 13日目の記事です。はじめに 🤗 Transf ormersは、自然言語処理、マルチモーダル、音声処理、コンピュータビジョン分野の事前学習済モデルを簡単にダウンロードしトレーニングすることが可能なpythonライブラリです。このライブラリを使用し、大規模言語モデル（LLM）の事前学習済モデルをローカルPC上にダウンロードし、それを使用した言語生成や、要約・翻訳・質問応答などの個別のタスクへのファインチューニング、チャットAIへの組み込みなどが盛んに行われています。 LLMの事前学習方法に関する情報としては、GPT-NeoXやMegatron-LM、TinyLlama、lit-llamaなど、他のpythonライブラリを使用したものが増えてきています。一方で、Transf ormersライブラリを使用したLLMの事前学習に関する情報
tasukuchan 2023/12/14
リンク
RetNetによる学習・評価・推論
諸注意本記事のコードブロック内のコマンドは、基本的にubuntu 18.04.05 on Windowsターミナル（以下、wsl）上で実行しています。本記事の誤記や、より良い方法などがありましたら、コメント欄にてご指摘ください。環境構築こちらの通りに、wslとpyenv-winの競合を解消し、wsl用のpyenvをinstallします以下のコマンドを実行し、本記事用のフォルダとpython仮想環境を構築します mkdir RetNetTutorial cd RetNetTutorial mkdir .wsl_env cd .wsl_env pyenv local 3.10.4 python -V # 3.10.4 # 仮想環境構築 python -m venv ./ # pipを新しくしておく cd bin # 仮想環境起動 source activate cd ../../ #
tasukuchan 2023/08/08
リンク
1

はてなブックマーク

タグ

ブックマーク / zenn.dev/selllous (2)

お知らせ

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / zenn.dev/selllous (2)

大規模言語モデルを自作しよう！(Transformers+DeepSpeed+torch.compile+flash_attn2）

RetNetによる学習・評価・推論

お知らせ

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス