タグ

2023年10月23日のブックマーク (3件)

  • llama2のpretrainingを試す

    小さいサイズのllama2を日語でpre_trainingしてみます。 この記事では、以下が参考になれば良いかと思います pre_trainingのやり方 llama2の実装 huggingfaceへのupload すべてgoogle colab上で実行します。 今回学習したモデルはここ 学習にはlit-gptを使います。 lit-gptはlit-llamaのforkです。こちらの実装の参考になるのでコードを眺めてみるのもおすすめです。 データセットの作成 まずは学習用のデータセットを作成します。 以下のコードを参考に、huggingface hubにあるデータセットから学習用のデータセットを作れるように修正します。 作成したものは以下 tokenizerはhuggingface.tokenizersライブラリを使うようにしているので、適宜読み替えてください。 tokenizerには前回

    llama2のpretrainingを試す
    flyeagle
    flyeagle 2023/10/23
  • 30分で完全理解するTransformerの世界

    はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータAI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

    30分で完全理解するTransformerの世界
    flyeagle
    flyeagle 2023/10/23
  • NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」

    国立情報学研究所(NII)は10月20日、パラメータ数130億の大規模言語モデル(LLM)「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。 公開したLLMの学習データ量は合計約3000億トークン。うち日語は約1450億トークン(mC4/Wikipedia)、英語は約1450億トークン(The Pile/Wikipedia)、プログラムコード約100億トークン。 計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights&Biasesを利用した。 NIIが主宰するLLM勉強会(LLM-jp)で7月

    NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」
    flyeagle
    flyeagle 2023/10/23