flyeagleのブックマーク / 2023年10月23日

flyeagle id:flyeagle

2023年10月23日のブックマーク (3件)

llama2のpretrainingを試す
小さいサイズのllama2を日本語でpre_trainingしてみます。この記事では、以下が参考になれば良いかと思います pre_trainingのやり方 llama2の実装 huggingfaceへのupload すべてgoogle colab上で実行します。今回学習したモデルはここ学習にはlit-gptを使います。 lit-gptはlit-llamaのforkです。こちらの実装の参考になるのでコードを眺めてみるのもおすすめです。データセットの作成まずは学習用のデータセットを作成します。以下のコードを参考に、huggingface hubにあるデータセットから学習用のデータセットを作れるように修正します。作成したものは以下 tokenizerはhuggingface.tokenizersライブラリを使うようにしているので、適宜読み替えてください。 tokenizerには前回
flyeagle 2023/10/23
リンク
30分で完全理解するTransformerの世界
はじめに初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI 技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。深層学習界隈では、2017年に衝撃的なタイトル（Attention Is All You Need）の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transf ormer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。今回はそんなTransf ormerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transf ormers に倣いつつ、適宜、2023年2月上旬現在ま
flyeagle 2023/10/23
リンク
NII、130億パラメータのLLM構築　コーパスなども全公開　「今後の研究に資するため」
国立情報学研究所（NII）は10月20日、パラメータ数130億の大規模言語モデル（LLM）「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。公開したLLMの学習データ量は合計約3000億トークン。うち日本語は約1450億トークン（mC4／Wikipedia）、英語は約1450億トークン（The Pile／Wikipedia）、プログラムコード約100億トークン。計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights＆Biasesを利用した。 NIIが主宰するLLM勉強会（LLM-jp）で7月
flyeagle 2023/10/23
リンク
- 2023年10月25日
- 2023年10月23日
- 2023年10月22日