はじめに ここ数日間に日本語で学習させたLLMがいくつかでましたが、定量的に性能評価したい!ということで日本語LLMベンチマークライブラリのJGLUEを回してみました。 ついでにloraに対応してなかったのでlora用のコードに修正。 環境 AWS Ec2 p4dn.24xlage Deep Learning AMI GPU PyTorch 2.0.0 (Amazon Linux 2) 20230406 セットアップ 適当なディレクトリを作成してJGLUEとtransformerをclone mkdir benchmark cd benchmark git clone https://github.com/yahoojapan/JGLUE.git git clone https://github.com/huggingface/transformers.git -b v4.9.2 tran
大規模言語モデルの学習コードをまとめました。 1. Alpacaの学習コード「LLaMA 」を標準の「HuggingFace Transformers」の学習コードをでファインチューニングを行います。 「Transformers」はまだ「LLaMA」を公式サポートしてないため、特定のフォーク(68d640f7c368bcaaaecfc678f11908ebbd3d6176)を使用します。 以下は、FSDP full_shard モードで 4つの A100 80G GPU を搭載したマシン上のデータセットで「LLaMA-7B」をファインチューニングするコマンドです。 torchrun --nproc_per_node=4 --master_port=<your_random_port> train.py \ --model_name_or_path <your_path_to_hf_conv
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く