gengohouseのブックマーク / 2023年6月22日

gengohouse id:gengohouse

2023年6月22日のブックマーク (4件)

DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する
はじめに言語モデルを用いたテキストの生成にはtransf ormersライブラリが広く使われていますが、transf ormersライブラリは幅広いモデルに対応する一方で、テキスト生成の速度やメモリ効率には十分に最適化されていません。そこでこの記事ではテキスト生成の効率を上げるためのツールを紹介します。今回はPyPIから簡単にインストールできるDeepSpeedとvLLM、CTranslate2を比較します。モデルはrinna/japanese-gpt-neox-3.6b-instruction-ppoを使います。プロンプトのフォーマットやトークナイザ等の使い方についてはモデルカードをご覧ください。この記事ではColabのT4 GPUタイプを利用してテキスト生成の速度を測定しています。それぞれのツールを試すノートブックと、Colabで開けるリンクを載せているので参考にしてみてください。
gengohouse 2023/06/22
リンク
初心者が言語モデルを勉強するための本（2023年6月版） - ぱたへね
流行のLLMを勉強したくて沢山本を読みました。この後もしばらくLLM（GPT）関係の出版が続きそうなので、現状の本でまとめてみました。参考： nowokay.hatena blog.com まとめ。 Transf ormerの仕組みを知りたい人で、画像のDeep Learningなら分かるって人はVision Transf ormer入門言語モデルをデータセットを作る所からやってみたい人には、作ってわかる! 自然言語処理AI とにかくすぐに動かしたい人には、機械学習エンジニアのためのTransf ormers ビジネス的に何ができるのかを知りたい人はBERT入門 Vision Transf ormer入門 Vison Transf ormerになっていますが、Transf ormerの説明がとても詳しくお勧めです。実際に写経してパーツパーツで動かせるのはこの本だけ。Transf ormer一点突破な
gengohouse 2023/06/22
入門
リンク
大規模言語モデルの出力スピードを最大24倍に高めるライブラリ「vLLM」が登場、メモリ効率を高める新たな仕組み「PagedAttention」とは？
大規模言語モデルを利用する際には、モデルそのものだけでなく、モデルを扱うためのライブラリが必要になってきます。多くの場合Transf ormersというライブラリが使用されていますが、「PagedAttention」という仕組みを導入した新たなライブラリ「vLLM」を利用することでスループットを最大24倍に向上できることが大規模言語モデルの研究チームによって発表されました。 vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention https://vllm.ai/ 大規模言語モデルを操作するためのライブラリにはHugging FaceのTransf ormers(HF)や実稼働環境向けのText Generation Inference(TGI)が存在しています。今回登場したvLLMはこの一角に加わった形。以下の図は、NVIDIA
gengohouse 2023/06/22
リンク
local llmでsentence embeddingどれ使えば良いんだっけ｜if001
最近の日本語喋れるLLMでそのままsentence embeddingしても良いんだっけ？そもそもどうやってsentence embeddingしてるんだっけ？と思っていたので調べてみた。単語単位のembeding実装はsentence tranfomerが参考になる。 sentence transfomerでない場合やbertのclsトークンを持たない場合は、単語embeddingを足し合わせて、単語列の長さで平均をとるmean_poolingがよく使われる手法らしい。追加でattentionのweightも加味すると良いみたい。 sentence transfomerではpoolingする層を最後に追加して、出力がembeddingされたvectorになる。 Flan-T5単語単位のembeddingしかできないが、mean_poolingを用いた場合が精度が良いらしい。 embe
gengohouse 2023/06/22
リンク
- 2023年6月26日
- 2023年6月22日
- 2023年6月21日