小さいサイズのllama2を日本語でpre_trainingしてみます。 この記事では、以下が参考になれば良いかと思います pre_trainingのやり方 llama2の実装 huggingfaceへのupload すべてgoogle colab上で実行します。 今回学習したモデルはここ 学習にはlit-gptを使います。 lit-gptはlit-llamaのforkです。こちらの実装の参考になるのでコードを眺めてみるのもおすすめです。 データセットの作成 まずは学習用のデータセットを作成します。 以下のコードを参考に、huggingface hubにあるデータセットから学習用のデータセットを作れるように修正します。 作成したものは以下 tokenizerはhuggingface.tokenizersライブラリを使うようにしているので、適宜読み替えてください。 tokenizerには前回
![llama2のpretrainingを試す](https://cdn-ak-scissors.b.st-hatena.com/image/square/6fcff205a34f82a3b7a0e08516f17a720a985d53/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--GnhJP6Pw--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3Allama2%2525E3%252581%2525AEpretraining%2525E3%252582%252592%2525E8%2525A9%2525A6%2525E3%252581%252599%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3Aif001%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzY1YjVlNzkzZjcuanBlZw%3D%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)