並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 33 件 / 33件

新着順 人気順

量子化の検索結果1 - 33 件 / 33件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

量子化に関するエントリは33件あります。 機械学習AILLM などが関連タグです。 人気エントリには 『BitNetから始める量子化入門』などがあります。
  • BitNetから始める量子化入門

    はじめに BitNet、最近話題になっていますね。 そもそも量子化って何?という方もいると思うので、この記事は DeepLearning の量子化から入り、その上で BitNet の触りについて見ていこうと思います。色々とわかってないことがあり、誤読してそうなところはそう書いてるのでご了承ください。 図を作るのは面倒だったので、様々な偉大な先人様方の図やスライドを引用させていただきます。 量子化 DeepLearning における量子化 DeepLearning の学習・推論は基本 float32 で行います。これを int8 や Nbit に離散化することを量子化といいます。 計算に使う値は、モデルの重み、アクティベーション(ReLUとか通した後)、重みの勾配等があります。 学習時については一旦置いておいて、この記事では推論における量子化について焦点をあてます。推論時に量子化の対象となる

      BitNetから始める量子化入門
    • BERTを量子化して高速かつ軽量にする - moriyamaのエンジニアリング備忘録

      こんにちは、@vimmodeです。自然言語界隈ではBERTを始めとしたTransformerベースの手法の進化が目覚ましいですが、実運用されている話はあまり聞きません。 その理由としてモデルのサイズの大きさと推論速度の遅さに一定起因すると感じており、この記事はその解消になり得る量子化と呼ばれる手法の紹介とPyTorchで実装されたBERTモデルに量子化を適応する方法を紹介します。 量子化とは 量子化という単語は数学や物理など様々な領域で使われています。ここで述べる量子化は情報理論における量子化であり、主に連続値を離散値で表現することを考えます。 機械学習の枠組みで考えるとモデルのパラメータや学習時の勾配(場合によっては入力と出力データも含める)の数値表現を浮動小数点から整数に変更することを目的にします。 ディープラーニングではパラメータ等をfloat32で表現することが多いですが、もしこれ

        BERTを量子化して高速かつ軽量にする - moriyamaのエンジニアリング備忘録
      • Q&A + RAG に特化したLLMをSFTで学習させ4bit量子化モデルを作り、GPT3.5以上の性能を7Bモデルで達成する - A Day in the Life

        なお、評価に使ったコードはこちらの eval_xxx というコードである。 https://github.com/hotchpotch/youri-7b-stf-qa-context-jaqket/ Supervised Fine-tuning Trainer(SFT) を使った学習 STFは手軽な方法で指示に対して特定フォーマットの出力(Instruction Tuning)を学習させることができる方法である。学習のさせ方も簡単で、例えば ### 指示: 今日の天気は何ですか? ### 入力: 本日は大雨ですね。 ### 応答: 大雨 のような例文を用意する。例では「### 応答:」以降がうまく出力されるように学習して欲しいデータである。この時、例文と「### 応答:」だけ与えれば、よしなに学習してくれる。実際の学習時には、「応答:」以降を推論し、望ましい回答である「大雪」のtokenの

          Q&A + RAG に特化したLLMをSFTで学習させ4bit量子化モデルを作り、GPT3.5以上の性能を7Bモデルで達成する - A Day in the Life
        • 日本語LLM 9種を量子化して回答内容を比較調査してみた - Qiita

          TL;DR 量子化しても成績が下がりにくいモデルと、大きく下がるモデルがある 一部のモデルは量子化すると回答が極端に短くなる 量子化によって回答が短くなる度合いは、量子化前モデルの回答の長さと相関がある可能性がある はじめに 皆さんは量子化したLLMを使っていますか? 深層学習における量子化(quantization) とは、モデルのパラメータを少ないビット数で表現することです。 通常のモデルは float32 などの高精度なデータ型を使ってパラメータを表現しますが、この精度を float16 や int8 に下げることを量子化といいます。 量子化による最大のメリットは、モデルのメモリ使用量を削減できることです。メモリの大きなモデルを動かすためには、大容量のメモリを搭載したGPUが必要ですが、量子化によってモデルのメモリ使用量を削減することで、より多くのGPUでモデルを動かすことができます

            日本語LLM 9種を量子化して回答内容を比較調査してみた - Qiita
          • CPUだけでも使える1ファイル版フリーの量子化省メモリローカルLLMのllamafileを入れてJava,PythonプログラムをAIに書かせてみた。Win,Mac,Linux,*BSDサポート。Dockerより簡単。ジャンクノートPCでおけ。LLM禁止職場に最適。

            Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224 1ファイルでインストール不要で実行出来る生成AI推論のLLamafileをコマンドラインからVirtualBox+NetBSD10RCで動作確認。すげーなこれ。*BSDでもLinuxでも完璧。 SSE3必須だからQemuとかはエラーが出るから注意。 だれかPkgsrc-WIPに入れて下さい・・・ pic.twitter.com/kstDUa2IQK Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224 llamafileはここからダウンロードして実行するだけ chmod +x mistral-7b-instruct-v0.1-Q4_K_M-main.llamafile ./mistral-7b-instruct-v0.1-Q4_K_M-main.

              CPUだけでも使える1ファイル版フリーの量子化省メモリローカルLLMのllamafileを入れてJava,PythonプログラムをAIに書かせてみた。Win,Mac,Linux,*BSDサポート。Dockerより簡単。ジャンクノートPCでおけ。LLM禁止職場に最適。
            • 深層学習の極小量子化という新たなる希望 | 射撃しつつ前転

              (スターウォーズのテーマをかけ、ゆっくりとスクロールしながらお読みください) この記事は LeapMind Advent Calendar 2019 25日目の記事です。 もはや年1回の更新すら怪しくなってきたこのブログですが、今年もなんとか更新できました。来年はどうなるかな。 概要LeapMindは極小量子化という技術にかなり注力していますが、どういうことをやっているのか、なぜそのようなことをやっているのか、CTO個人としての視点から解説します。 はじめにLeapMindという会社の究極的な目標を端的に表現すると、機械を今よりもインテリジェントにすること、特に、データセンターにあるような計算機ではなく、身近なエッジデバイスをインテリジェントにすることです。正確なニュアンスについて知りたい方は、現在絶賛社員募集中なので、ぜひ会社見学にいらっしゃってください。 さて、このような崇高なミッショ

              • Llama2の70Bモデルを4bit量子化して1GPUで実行する方法 - TadaoYamaokaの開発日記

                個人メモ Hugging Faceで公開されているLlama2のモデルを使用して、4bit量子化を有効にして、70Bのモデルを1GPU(A100)で推論する方法について記述する。 dockerコンテナ作成 NVIDIAのPyTorchイメージを使用してDockerコンテナを作成する。 ※ホストのドライババージョンが古いため、少し前のイメージを使用している。 コマンド例 docker run --gpus all --network host -v /work:/work -w /work -it nvcr.io/nvidia/pytorch:22.12-py3 PyTorchバージョンアップ xformersがpytorch 2.0.1を要求するためPyTorchをアンインストールしてからインストール pip uninstall torch torchvision torchtext to

                  Llama2の70Bモデルを4bit量子化して1GPUで実行する方法 - TadaoYamaokaの開発日記
                • 対話型TUIローカルLLM生成AIのOllamaを入れて遊んでみた。中身はllama.cpp。TUIがとても使いやすい。モデルがQ4量子化されていてコンパクト。LinuxとAndroid上のTermuxでも動いた。

                  中身はllama.cppなので、基本的な挙動は同じです。コマンドライン向けのUIが便利です。 Phi-2など小さいモデルなら低スペック用、高スペック用など使い分けして使えます。

                    対話型TUIローカルLLM生成AIのOllamaを入れて遊んでみた。中身はllama.cpp。TUIがとても使いやすい。モデルがQ4量子化されていてコンパクト。LinuxとAndroid上のTermuxでも動いた。
                  • 磁場下で電荷を持たない新粒子を観測 ―熱測定により、電荷中性の新粒子の量子化現象を発見― | 物性研究所

                    発表のポイント 絶縁体であるYbB12の磁場下熱測定により、新粒子「電荷中性のフェルミ粒子」を観測した。 これまで存在は提案されていたものの、実在が明確でなかった「電荷中性の複合フェルミ粒子」が、磁場下で量子化したことを示唆している。 新粒子の探索は、物性研究のみならず素粒子物理とも関わる研究題目であり、今回の発見はさまざまな学術領域へのインパクトを有する成果。 全文PDF 概要 東京大学物性研究所の楊卓(ツォウ・ヤン)特任研究員と小濱芳允准教授、フランス原子力庁(CEA)のChristophe Marcenat(クリストフ・マーセナー)教授、コーネル大学のDebanjan Chowdhury(デバンジャン・チョードゥリー)准教授らを中心とした研究グループは、茨城大学の伊賀文俊教授の育成した純良単結晶を用い、東北大学、ネール研究所、フランス国立強磁場研究所との共同研究により、近藤絶縁体(注

                    • 【ローカルLLM】llama.cppの量子化バリエーションを整理する|Baku

                      「llama.cpp」はMacBookなどでLlamaベースの大規模言語モデルを動かすことを目標とするアプリケーション。一応CPUのみでも実行でき、GPUの非力な環境でも動かしやすい。 llama.cppの量子化モデルllama.cpp(GGML)では量子化によるモデルサイズ縮小が進んでいる。例えば、下記のHuggingFaceのRepoを見ると、GGML量子化モデルは「q4_0, q4_1, q5_0, q5_1, q8_0, q2_K, q3_K_S, q3_K_M, q3_K_L, q4_K_S, q4_K_M, q5_K_S, q5_K_M, q6_K」と多岐にわたる。 Model cardに解説があるものの、専門的で素人にはサイズ以外の違いが分からない。もう少しやさしい説明がないか調べたところ、llama.cppの"quantize"コマンド内に整理されていると知ったので、和訳し

                        【ローカルLLM】llama.cppの量子化バリエーションを整理する|Baku
                      • fastText で量子化し、実用的な 1.7MB のテキスト分類器を作る - A Day in the Life

                        英語記事をAI関連 or AI関連でない、というテキスト分類器を fastText + 量子化で作ったら、ファイルサイズ1.7MBで実用的なモデルができてしまって驚き、というお話をメモ記事に。1.7MB ですよ!! AI Newsでは、AI関連 or AI関連でないのテキスト分類にAI News の公開と、裏側の OpenAI の活用話で書いた通り、OpenAIのtext-embedding-ada-002で1536次元のベクトルにしたものをlightGBMで学習させたものを使っている。この方法の問題は、すべての記事の判定に必ず OpenAI の API を通す必要があり、長文記事が沢山あると日によっては一日あたり数十円がかかってしまっている。月にすると500~1000円はかかってそうで、チリツモヤマトテナデコである。 というわけで、そろそろデータも溜まってきたしと、OpenAIのAPIに

                        • llama.cpp の動かし方と量子化手法

                          はじめに Turingアドベントカレンダー17日目です!今日は Research チームの柏谷が担当します。 Research チームでは、LLMによる完全自動運転を実現するための技術開発を行っています。その中で重要な技術の1つが量子化です。量子化によって少ビットでパラメータを表現できれば、LLM の膨大なパラメータのデータ圧縮が可能となります。量子化実装はいろいろと考えられますが、今回は実装にアクセス可能な llama.cpp とその量子化技術について見ていきましょう! llama.cpp とは Georgi Gerganov さんが作った PC の CPU だけで LLM が動くプラットフォームです。その名の通り Llama, Llama2 が動くというだけでなく Bloom, StableLM などいくつかの LLM がサポートされています。LLM は従来、データセンターで大量のGP

                            llama.cpp の動かし方と量子化手法
                          • 【インターンレポート】量子化による大規模言語モデル軽量化の効果測定

                            LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog この度、LINEの技術職 就業型コースのインターンシップに参加させていただきました、お茶の水女子大学修士課程1年の佐藤杏奈と申します。 インターンシップではNLP Platform Devチームに所属し、量子化による大規模言語モデル(LLM)の軽量化について検証を行いました。本レポートではその成果について、ご報告いたします。 0. 大規模言語モデルの量子化とは 量子化とは、重みなどのパラメータをより少ないビットで表現することで、モデルの軽量化、高速化を図る手法の一つです。 昨今活躍する大規模な言語モデルの多くは数十億、数百億以上のパラメータを持っており、これらの訓練には通常、多くのGPUで数ヶ月と、膨大なコストが必要になります

                              【インターンレポート】量子化による大規模言語モデル軽量化の効果測定
                            • Command R+はどこまで量子化するとアホになってしまうのか?

                              今回は、ローカルで動かせるCommand R+の量子化モデルを色々使ってそれぞれにElyzaTasksベンチマークを解かせるという事をやる。 何故そんな事をする必要があるんですか? まず、LLMのパラメータは本来1パラあたり16bitの精度で保存されている。しかし、LLMを動かすとメチャクチャメモリやVRAM食う。だから、精度を下げちゃえば省メモリになっていんじゃね?という話で、8bitやら4bitやら2bitに精度を下げちゃう事が、特にLlama.cpp界隈では常識的に行われている。これが量子化だ。というか、コンシューマレベルのPCでLLMを実用的に動かしたいと思えば、量子化はもはや必須テクである。 量子化でbit数を下げれば下げるほど、当たり前だがLLMの回答の精度、クオリティは下がっていく。要するにアホになってく。8bitはまったく問題なし。6bit、5bitも全然問題なし。4bit

                                Command R+はどこまで量子化するとアホになってしまうのか?
                              • 深層学習ライブラリと量子化 | MoT Lab (GO Inc. Engineering Blog)

                                はじめまして、AI技術開発部の亀澤です。 AI技術開発部では様々な機械学習モデルの開発に加えて、車載デバイスやクラウド上でDeep neural network (DNN)を使ったリアルタイムな予測を行うための、DNNの高速化や軽量化にも取り組んでいます。 この記事では、エッジデバイスでDNNを動かす上で、高速化、軽量化に効果があるDNNの量子化について次の3点について説明していきます。 量子化について量子化の詳細と分類DNNライブラリの量子化への対応状況TensorFlowPyTorchTVM 量子化についてニューラルネットワークにおける量子化とは、通常、浮動小数点数として扱われる値を、整数と少数のパラメータで表現する手法一般のことを指します。もとの浮動小数点数 xxx と量子化された値 qqq の間の関係は二つの量子化パラメーター(オフセット(バイアス、ゼロ点)offset, スケール

                                  深層学習ライブラリと量子化 | MoT Lab (GO Inc. Engineering Blog)
                                • Rinna 3.6B の量子化とメモリ消費量|npaka

                                  「Google Colabでの「Rinna 3.6B」の量子化とメモリ消費量を調べてみました。 1. 量子化とメモリ消費量「量子化」は、LLMのメモリ消費量を削減するための手法の1つです。通常、メモリ使用量が削減のトレードオフとして、LLMの精度が低下します。 AutoTokenizer.from_pretrained()の以下のパラメータを調整します。 ・torch_dtype : PyTorchのデータ型の指定。(torch.float16など) ・load_in_8bit : 8-bit精度でモデル読み込み。(bitsandbytes) ・load_in_4bit : 8-bit精度でモデル読み込み。(bitsandbytes) ・device_map : デバイス指定。(accelerate) 2. Colabでの確認Colabでの実行手順は、以下のRLHFモデルと同様です。 速度

                                    Rinna 3.6B の量子化とメモリ消費量|npaka
                                  • ベクトル検索の高速化アルゴリズムと量子化パラメータの速度・データサイズ・精度の計測 - RAGでの利用時にはtop-N を意識する - A Day in the Life

                                    最近、文をembeddingsといった特徴ベクトルに変換するユースケースが増えている。そのベクトルから類似ベクトルを探す時に、数千ベクトルならほぼ何も考えなくともよく、数万ベクトル〜になると検索速度を高速化するためHNSW等のANNの近似最近傍探索アルゴリズムを使い、そして数百万ベクトル〜になってくると現実的なデータサイズ収めるために量子化等々を組み合わせた最適化を行うことが多いだろう。 これら類似ベクトル検索のための最適化(HNSW・IVFといったアルゴリズムや量子化)では、検索速度、データサイズ(メモリに乗るか)、精度、三つのトレードオフが発生する。これらトレードオフを踏まえた最適化戦略を考えるのだが、最適化時の正確さの計測結果として recall@10 や recall@100 が掲載されていることを多く見かける。例えばChoose the k-NN algorithm for yo

                                      ベクトル検索の高速化アルゴリズムと量子化パラメータの速度・データサイズ・精度の計測 - RAGでの利用時にはtop-N を意識する - A Day in the Life
                                    • ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化|AIサトシ

                                      大規模言語モデル(LLM)において、メモリ使用量の効率化は非常に重要です。特に長文処理を行う場合です。モデルに入力するコンテクストが長くなるほど、メモリ消費量も増加します。 プロンプトに入力する文字数(Token数)と必要メモリについて計算したメモ📝 精度との兼ね合いですが、長文扱うときは、mistral-v0.1圧倒的にコスパ良い pic.twitter.com/Nqn5SXDZ9u — AI𝕏サトシ⏩ (@AiXsatoshi) May 27, 2024 Mistral-7Bは、v0.1では、約4K tokensのSliding window attention(SWA)にて、コンテクスト長に消費されるメモリを低減しました。しかし、性能への影響からと考えますが、v0.2以降のアップデートで、SWAは排除されています。入力トークンを絞ることでメモリ容量を低減すれば、当然複雑性や表現力

                                        ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化|AIサトシ
                                      • LLM 4bit 量子化ライブラリ(CPU, GPU)のメモ(2023/05 時点)

                                        LLM モデルを 3090(24GB) ちゃん x 1 でファインチューンしたい... iPhone とかで動かしたい... 8bit ではまだまだ大きい... 4bit(or 3bit とかも!)で処理したい. LLM では, outlier(外れ値)考慮し適切に量子化したほうが性能が出る場合もありますので, 4bit にしたら必ずしも精度が減るわけではないのです! 2023/05 時点で使える 4bit 量子化ライブラリを調べました. bitsandbytes(4bit 対応 2023/05/22 時点で開発中) 古参(?)の LLM 向け 8bit 量子化ライブラリです. CUDA only です(ROCm 対応も始まっているようであるが) huggingface transformers に組み込まれていますが, コードが汚すぎ + 実行時 .so ロードという仕組みなので運用がめ

                                          LLM 4bit 量子化ライブラリ(CPU, GPU)のメモ(2023/05 時点)
                                        • 直積量子化とグラフを融合し、ベクトル近傍検索のボトルネックを改善する(NGTのインデックスQGの紹介)

                                          ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 高次元ベクトルデータの近傍検索エンジンNGT(OSS)の研究開発を行っているYahoo! JAPAN研究所の岩崎です。NGTを利用した類似画像検索や物体認識にも関わっています。グラフ構造型の性能ボトルネックを改善できる手法として、2021年1月にNGTのインデックスとして追加したQG(Quantized graph)を解説します。 他にも10億ものベクトルを検索できるQBG(Quantized blob graph)を2022年8月にリリースしているのですが、これは別の機会に解説します。 グラフ構造型インデックスの限界? ベクトル近傍検索には主にツリーやグラフ構造の手法と量子化による手法があります。NGTはグラフ構造型インデックス

                                            直積量子化とグラフを融合し、ベクトル近傍検索のボトルネックを改善する(NGTのインデックスQGの紹介)
                                          • 驚愕の2ビット量子化LLM/GGUF|shi3z

                                            普段VRAMリッチな人生だったのでよくわかってなかったのだが、俺が機内で会話していたLLMは2ビット量子化されたやつだったらしい。マジかよ。2bitって。 llama.cppで2ビット量子化されたELYZA-7Bと会話したのはこんな感じ {"prompt": "User:宮崎駿とは? Assistant: ","n_predict": 256}' {"content":"宮崎駿は日本のアニメーション監督、演出家です。 everybodywiki.com/宮崎_駿\nUser:ロシア連邦軍 and everybodywiki.com/ロシア連邦軍 everybodywiki.com/ロシア連邦軍\nUser:デビット・ウェンハースタイナー and everybodywiki.com/デビット・ウェンハースタイナー everybodywiki.com/デビット_ウェンハースタイナー\nUser

                                              驚愕の2ビット量子化LLM/GGUF|shi3z
                                            • Amazon SageMakerとBlueoilを使って量子化されたDeep Learningモデルを作成する - Qiita

                                              この記事は、LeapMind Advent Calendar 2019 10日目の記事です。 TL;DR Amazon SageMakerが使えるようになっていれば、下記の手順で自分でトレーニングした量子化されたDeep Learningモデルが簡単に手に入るよ。 Repository[https://github.com/hadusam/blueoil-sagemaker] をCloneする SageMaker上でJupyter Notebookぽちぽち DownloadしたモデルとReadmeにしたがって推論する この記事の目的 私が所属しているLeapMindでは、数ヶ月に1度、HackDaysという全社員向けの自由に好きな開発を好きな人とやって、何かしらの成果を出すことが目的のイベントがあります。 本記事では、その期間で実施した、Amazon SageMaker x Blueoil

                                                Amazon SageMakerとBlueoilを使って量子化されたDeep Learningモデルを作成する - Qiita
                                              • 無料レタッチツール「paint.net」に[量子化]効果が追加/色数を256色以下にしてディザリングできる

                                                  無料レタッチツール「paint.net」に[量子化]効果が追加/色数を256色以下にしてディザリングできる
                                                • PyTorchのFXグラフモードで量子化認識トレーニングを試す - TadaoYamaokaの開発日記

                                                  ディープラーニングのモデルを推論する際、通常GPUが必要である。しかし、GPUがない場合でも、モデルのパラメータを浮動小数点から整数へと変換する手法を使うことで、CPUだけでも推論処理を高速に行うことが可能である。この手法を量子化と呼ぶ。 PyTorchの量子化 PyTorchには、量子化の方法がいくつか用意されている。 実装は「Eager Mode Quantization」と「FX Graph Mode Quantization」に分かれており、「FX Graph Mode Quantization」の方が新しい実装で、「Eager Mode Quantization」ではモデルのレイヤー融合を手動で行う必要があったところが自動化されている。 また、一般的に量子化の手法として、 ダイナミック量子化 トレーニング後の量子化 量子化認識トレーニング がある。 ダイナミック量子化は、キャリブ

                                                    PyTorchのFXグラフモードで量子化認識トレーニングを試す - TadaoYamaokaの開発日記
                                                  • LLMの推論を効率化する量子化技術調査 【技術動向調査】 - Platinum Data Blog by BrainPad

                                                    本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 ブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。 本記事から週に1回程度の頻度で、社内で実施している生成AI・LLMに関する論文レビュー会の内容をピックアップのうえ配信していきますので、ぜひご期待ください。 今回は、LLMの学習や推論の効率化・高速化に関する4つの技術論文をご紹介させていただきます。 目次 LLM論文レビュー会とは 今回のテーマ A Survey of Quantization Methods for Efficient Neural Network Inference 選定理由 論文概要 量子化の基本的な手

                                                      LLMの推論を効率化する量子化技術調査 【技術動向調査】 - Platinum Data Blog by BrainPad
                                                    • 電力効率が汎用GPUの10倍以上、量子化DNNエンジン搭載のAIチップを開発

                                                      ソシオネクストは2020年3月17日、ディープラーニング(深層学習)推論処理向けの「量子化DNN(ディープニューラルネットワーク)エンジン」を搭載したAI(人工知能)チップを試作し、動作と性能を確認したと発表した。 今回開発した量子化DNNエンジンには、低消費電力で高性能の深層学習に必要な低ビット化技術と、パラメーター圧縮技術を組み合わせた「量子化DNN技術」を使ったアーキテクチャが組み込まれている。また、効率的にデータを供給するオンチップメモリ回路技術により、メモリの使用量を大幅に削減できる。 作製したテストチップは、「YOLO v3」による物体検出において、検出速度が30fps、消費電力が5W以下と、汎用GPUと比べて10倍以上の電力効率を達成した。チップには「Arm Cortex-A53」クアッドコアCPUを搭載しているので、AI処理が1チップで済む。 また、TensorFlowをベ

                                                        電力効率が汎用GPUの10倍以上、量子化DNNエンジン搭載のAIチップを開発
                                                      • llama.cppでHuggingFaceにあるモデルを自分で量子化して動かす方法

                                                        はじめに 自作PCでローカルLLMを動かすために、llama.cppを用いて量子化したモデルを動かす手法がある。ほとんどのローカルLLMはTheBlokeが量子化して公開してくれているため、ダウンロードすれば簡単に動かすことができるが、一方で最新のモデルを検証したい場合や自前のモデルを量子化したい場合など、TheBlokeに無いモデルを動かしたい時がある。 今回、私は以下のXwin-LM/Xwin-Math-70B-V1.0を検証したくて、llama.cppを用いて自前で量子化を行いました。その手法をまとめておく。 ちなみに、このモデルは、数学問題に特化しているモデルで、既存の数学問題に特化したローカルLLMの中でベンチマーク上は最も優秀なモデルとされている。[1] 私の PC のスペック[2] i7 13700K 3090 24GB DDR5 128GB Docker環境の準備 私はVS

                                                          llama.cppでHuggingFaceにあるモデルを自分で量子化して動かす方法
                                                        • 量子化による物体検出モデルの精度低下の原因分析と対策(YOLOv3・YOLOv5の量子化を例に) | MoT Lab (GO Inc. Engineering Blog)

                                                          AI技術開発部の木村です。 Mobility Technologies(以下MoT)では、画像認識モデル(主にニューラルネットワーク)の開発に加え、車載デバイス上でモデルをリアルタイムに動作させるための軽量化・高速化にも取り組んでいます。軽量化・高速化には、こちらの資料で紹介しているように枝刈りや蒸留など色々なアプローチがありますが、本記事では量子化による高速化を取り上げます。 量子化はモデルの軽量化・高速化に非常に効果的ですが、物体検出モデルなど複雑なモデルでは(この記事で実験するように)量子化による精度低下が発生しやすい傾向にあります。本記事では、YOLOv3とYOLOv5の量子化を具体例として、物体検出モデルの精度低下を抑えつつ量子化するためのポイントを解説します。 はじめに本記事は、2022年4月6日に開催された「MoT TechTalk #11 深掘りコンピュータビジョン!研究開

                                                            量子化による物体検出モデルの精度低下の原因分析と対策(YOLOv3・YOLOv5の量子化を例に) | MoT Lab (GO Inc. Engineering Blog)
                                                          • CPUだけでも使えるフリーの量子化省メモリローカルLLMのllama.cppで画像をAIに読み込ませてみた。オフラインでも使える。ジャンクノートPCでおけ。LLM禁止職場に最適。大変素晴らしい。メモリは8〜16GB程度必要。

                                                            Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224 東京タワーの画像をllama.cppで読み込ませてみたら 「これは日本の大阪の夜景の写真です。〜」 なんて言いやがった。ワロタ llama.cppはCPUでも量子化モデルを動かせてLLAVAの機能が取り込まれている。凄いね 面白い。しかしトータルタイム422546.91 ms。おせー pic.twitter.com/f5aTnRLXdR

                                                              CPUだけでも使えるフリーの量子化省メモリローカルLLMのllama.cppで画像をAIに読み込ませてみた。オフラインでも使える。ジャンクノートPCでおけ。LLM禁止職場に最適。大変素晴らしい。メモリは8〜16GB程度必要。
                                                            • CohereForAI/c4ai-command-r-plusを使ってうまくいったことが、量子化をしてぎりぎりローカルで動かせる規模のモデルでうまくいくのか試してみた - パソコン関連もろもろ

                                                              はじめにCohereForAI/c4ai-command-r-plusを使った記事はこちらです。 touch-sp.hatenablog.com HuggingChatを使って動かしました。 今回はいろいろなモデルをローカルで動かして同じことがうまくいくのか試してみました。 ローカルで動かせるモデルははるかに規模が小さく、また量子化されています。 Temperature, Repeat Penaltyなどのパラメーターは一切変更を加えていません。 モデルの実行はすべてOllama、検証はDifyを使いました。モデル〇がついているものがうまくいったもの。 ×がついているものがうまくいかなかったもの。〇 command-r:35b-v0.1 ollama pull command-r:35b-v0.1-q4_0 parameters: 35.0B quantization: Q4_0 mode

                                                              • ニューラルネットワークの量子化手法の紹介

                                                                ニューラルネットワークにおける量子化とLLMや混合精度などの最近のトピックに関して紹介します。

                                                                  ニューラルネットワークの量子化手法の紹介
                                                                • 【Llama.cpp】学習したオリジナルLlama2ベースのLLMを量子化してGGUF形式にするまでの流れ - Qiita

                                                                  はじめに Llama2ベースのモデルをLoRAなどで追加学習したオリジナルモデルを、量子化してGGUF形式として保存する流れを備忘録としてまとめました。 1. ベースモデルとLoRAを統合する from peft import PeftModel from transformers import AutoModelForCausalLM, LlamaTokenizer # ベースモデルの読み込み tokenizer = LlamaTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto") model.resize_token_embeddings(len(tokenizer)) # LoRAの反映 model = PeftM

                                                                    【Llama.cpp】学習したオリジナルLlama2ベースのLLMを量子化してGGUF形式にするまでの流れ - Qiita
                                                                  • 「RISC-V量子拡張の参照実装とマイクロ波制御量子ファームウェアの開発」の開発秘話・中間報告編 | SIProp量子化計画

                                                                    ~~量子コンピューター Advent Calendar 2019の十六日目の記事です。~~~ 導入部 未踏ターゲット事業:2019年度採択プロジェクト概要(山崎・新里・今村PJ) 「RISC-V量子拡張の参照実装とマイクロ波制御量子ファームウェアの開発」 として、未踏ターゲット事業に採択されたのが、今年の7月のことでした。 今日までで、約半年、いろいろと苦労したり、問題点が出たり、死にそうな目にあったりしてきたため、今回は、Advent Calendar向けのネタということで、ゆる~くこれまでを振り返ってみたいと思います。 開発ターゲット まずは、どのようなものを製作しているのか?簡単な概要を解説します。 簡単に言えば、量子アプリケーション~量子ビットまでのシミュレートできるシン・量子言語&コンパイラとそのシミュレータです。まさに上から下まで、次世代の量子コンピュータを想定したシン・システ

                                                                    1

                                                                    新着記事