タグ

ブックマーク / note.com/npaka (3)

  • HuggingFace での Flash Attention 2 の使い方|npaka

    以下の記事が面白かったので、かるくまとめました。 ・Efficient Inference on a Single GPU - Flash Attention 2 【注意】 この機能は実験的なものであり、将来のバージョンでは大幅に変更される可能性があります。「Flash Attendant 2 API」は近い将来「BetterTransformer API」に移行する可能性があります。 1. Flash Attention 2「Flash Attendant 2」は、Transformerベースのモデルの学習と推論の速度を大幅に高速化できます。 リポジトリのインストールガイドに従って、「Flash Attendant 2」をインストールしてください。これをインストールすることで、HuggingFaceの「Flash Attention 2」の機能も利用できるようになります。 次のモデルは

    HuggingFace での Flash Attention 2 の使い方|npaka
    yyamano
    yyamano 2023/11/21
  • LangChainのTextSplitterを試す|npaka

    「LangChain」の「TextSplitter」がテキストをどのように分割するかをまとめました。 前回 1. TextSplitter「TextSplitter」は長いテキストをチャンクに分割するためのクラスです。 処理の流れは、次のとおりです。 (1) セパレータ(デフォルトは"\n\n")で、テキストを小さなチャンクに分割。 (2) 小さなチャンクを特定サイズになるまでマージし、大きなチャンクを作成。 2. CharacterTextSplitterセパレータで分割して、文字数でマージするTextSplitterです。 from langchain.text_splitter import CharacterTextSplitter text_splitter = CharacterTextSplitter( separator = "\n\n", # セパレータ chunk_si

    LangChainのTextSplitterを試す|npaka
    yyamano
    yyamano 2023/09/07
  • Llama.cpp で Llama 2 を試す|npaka

    「Llama.cpp」で「Llama 2」を試したので、まとめました。 ・macOS 13.4.1 ・Windows 11 前回 1. Llama.cpp「Llama.cpp」はC言語で記述されたLLMのランタイムです。「Llama.cpp」の主な目標は、MacBookで4bit量子化を使用してLLAMAモデルを実行することです。 特徴は、次のとおりです。 ・依存関係のないプレーンなC/C++実装 ・Appleシリコンファースト (ARM NEON、Accelerate、Metalを介して最適化) ・x86アーキテクチャのAVX、AVX2、AVX512のサポート ・Mixed F16/F32精度 ・4bit、5bit、8bit量子化サポート ・BLASでOpenBLAS/Apple BLAS/ARM Performance Lib/ATLAS/BLIS/Intel MKL/NVHPC/AC

    Llama.cpp で Llama 2 を試す|npaka
    yyamano
    yyamano 2023/07/20
  • 1