[B! LLM] iwashi86のブックマーク

iwashi86 id:iwashi86

LLMに関するiwashi86のブックマーク (2)

107. LLMをゼロから作るということ w/ Takahiro Omi | fukabori.fm
MP3ファイルをダウンロード内容紹介ストックマークの近江さんをゲストに、大規模言語モデルをゼロから作る方法、学習のデータセット、モデルアーキテクチャ、学習環境への取り組みなどについて語っていただきました。出演者話したネタどのような大規模言語モデルと作ったのか？特徴は何か？データセットに何を使ったのか？日本語と英語とのバランスは？最終的なToken数は？事前学習モデルを作りたいとして、何から考えるのか？ノイズのクリーニングと、その方法今回活用したモデルアーキテクチャ(Llama) 前回のアーキテクチャは GPT-NeoX 今回の学習環境は？ AWS Trainum 32コア x 16ノード学習にかかった時間は？学習時に大変だったこと・上手くいかなかったことは？学習中のチェックポイントとは何か？なぜ、Token生成が速いのか？手元でLLMを動かすときの一番のネッ
iwashi86 2023/11/15
LLM

fukabori

Podcast
リンク
先読みを用いたLLMの文章生成の高速化 - NTT Communications Engineers' Blog
こんにちは、イノベーションセンターの加藤です。普段はコンピュータビジョンの技術開発やAI/機械学習（ML: Machine Learning）システムの検証に取り組んでいます。一方で、兼務1で大規模言語モデル（LLM: Large Language Model）について調査を行なっており、特にLLMの推論や学習の高速化に関心を持っています。今回は、小さな言語モデルによる先読みを活用してLLMの文章生成を高速化する手法（Assisted Generation2, Speculative Sampling3などと呼ばれています）についてご紹介します。 LLMの推論は計算コストが高く、文章生成の遅さが課題としてよく挙げられています。特に日本語はトークンあたりの文字数が少なく、ChatGPTのようなストリーム出力でもかなり生成が遅く感じるかと思います。これに対して、いくらか余分にメモリを利用し
iwashi86 2023/11/14
生成AI

LLM
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx