yyamanoのブックマーク - はてなブックマーク

HuggingFace での Flash Attention 2 の使い方｜npaka
以下の記事が面白かったので、かるくまとめました。・Efficient Inference on a Single GPU - Flash Attention 2 【注意】この機能は実験的なものであり、将来のバージョンでは大幅に変更される可能性があります。「Flash Attendant 2 API」は近い将来「BetterTransf ormer API」に移行する可能性があります。 1. Flash Attention 2「Flash Attendant 2」は、Transf ormerベースのモデルの学習と推論の速度を大幅に高速化できます。リポジトリのインストールガイドに従って、「Flash Attendant 2」をインストールしてください。これをインストールすることで、HuggingFaceの「Flash Attention 2」の機能も利用できるようになります。次のモデルは
yyamano 2023/11/21
リンク
LangChainのTextSplitterを試す｜npaka
「LangChain」の「TextSplitter」がテキストをどのように分割するかをまとめました。前回 1. TextSplitter「TextSplitter」は長いテキストをチャンクに分割するためのクラスです。処理の流れは、次のとおりです。 (1) セパレータ(デフォルトは"\n\n")で、テキストを小さなチャンクに分割。 (2) 小さなチャンクを特定サイズになるまでマージし、大きなチャンクを作成。 2. CharacterTextSplitterセパレータで分割して、文字数でマージするTextSplitterです。 from langchain.text_splitter import CharacterTextSplitter text_splitter = CharacterTextSplitter( separator = "\n\n", # セパレータ chunk_si
yyamano 2023/09/07
リンク
Llama.cpp で Llama 2 を試す｜npaka
「Llama.cpp」で「Llama 2」を試したので、まとめました。・macOS 13.4.1 ・Windows 11 前回 1. Llama.cpp「Llama.cpp」はC言語で記述されたLLMのランタイムです。「Llama.cpp」の主な目標は、MacBookで4bit量子化を使用してLLAMAモデルを実行することです。特徴は、次のとおりです。・依存関係のないプレーンなC/C++実装・Appleシリコンファースト (ARM NEON、Accelerate、Metalを介して最適化) ・x86アーキテクチャのAVX、AVX2、AVX512のサポート・Mixed F16/F32精度・4bit、5bit、8bit量子化サポート・BLASでOpenBLAS/Apple BLAS/ARM Performance Lib/ATLAS/BLIS/Intel MKL/NVHPC/AC
yyamano 2023/07/20
リンク
1