タグ

ブックマーク / zenn.dev/selllous (2)

  • 大規模言語モデルを自作しよう!(Transformers+DeepSpeed+torch.compile+flash_attn2)

    記事は、LLM Advent Calendar 2023 13日目の記事です。 はじめに 🤗 Transformersは、自然言語処理、マルチモーダル、音声処理、コンピュータビジョン分野の事前学習済モデルを簡単にダウンロードしトレーニングすることが可能なpythonライブラリです。このライブラリを使用し、大規模言語モデル(LLM)の事前学習済モデルをローカルPC上にダウンロードし、それを使用した言語生成や、要約・翻訳・質問応答などの個別のタスクへのファインチューニング、チャットAIへの組み込みなどが盛んに行われています。 LLMの事前学習方法に関する情報としては、GPT-NeoXやMegatron-LM、TinyLlama、lit-llamaなど、他のpythonライブラリを使用したものが増えてきています。一方で、Transformersライブラリを使用したLLMの事前学習に関する情報

    大規模言語モデルを自作しよう!(Transformers+DeepSpeed+torch.compile+flash_attn2)
  • RetNetによる学習・評価・推論

    諸注意 記事のコードブロック内のコマンドは、基的にubuntu 18.04.05 on Windowsターミナル(以下、wsl)上で実行しています。 記事の誤記や、より良い方法などがありましたら、コメント欄にてご指摘ください。 環境構築 こちらの通りに、wslとpyenv-winの競合を解消し、wsl用のpyenvをinstallします 以下のコマンドを実行し、記事用のフォルダとpython仮想環境を構築します mkdir RetNetTutorial cd RetNetTutorial mkdir .wsl_env cd .wsl_env pyenv local 3.10.4 python -V # 3.10.4 # 仮想環境構築 python -m venv ./ # pipを新しくしておく cd bin # 仮想環境起動 source activate cd ../../ #

    RetNetによる学習・評価・推論
  • 1