並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 19 件 / 19件

新着順 人気順

llama cpp gpu splitの検索結果1 - 19 件 / 19件

  • gpt-oss の使い方|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Welcome GPT OSS, the new open-source model family from OpenAI! 1. gpt-oss「gpt-oss」は、OpenAIによる待望のオープンウェイトリリースであり、強力なReasoning、エージェントタスク、そして多様な開発者ユースケース向けに設計されています。117Bのパラメータを持つ大規模モデル「gpt-oss-120b」と、21Bのパラメータを持つ小規模モデル「gpt-oss-20b」の2つのモデルで構成されています。どちらも「MoE」(Mixture-of-Experts) であり、MXFP4を使用することで、リソース使用量を抑えながら高速推論を実現します。大規模モデルは単一のH100 GPUに収まり、小規模モデルは16GBのメモリ内で動作し、コンシューマーハードウェア

      gpt-oss の使い方|npaka
    • Llama.cpp で Llama 2 を試す|npaka

      「Llama.cpp」で「Llama 2」を試したので、まとめました。 ・macOS 13.4.1 ・Windows 11 前回 1. Llama.cpp「Llama.cpp」はC言語で記述されたLLMのランタイムです。「Llama.cpp」の主な目標は、MacBookで4bit量子化を使用してLLAMAモデルを実行することです。 特徴は、次のとおりです。 ・依存関係のないプレーンなC/C++実装 ・Appleシリコンファースト (ARM NEON、Accelerate、Metalを介して最適化) ・x86アーキテクチャのAVX、AVX2、AVX512のサポート ・Mixed F16/F32精度 ・4bit、5bit、8bit量子化サポート ・BLASでOpenBLAS/Apple BLAS/ARM Performance Lib/ATLAS/BLIS/Intel MKL/NVHPC/AC

        Llama.cpp で Llama 2 を試す|npaka
      • Llama.cpp の HTTPサーバー機能を試す|npaka

        「Llama.cpp」のHTTPサーバー機能を試したのでまとめました。 ・Mac M1 1. モデルの準備今回は、「vicuna-7b-v1.5.ggmlv3.q4_K_M.bin」を使います。 ・TheBloke/vicuna-7B-v1.5-GGML ・TheBloke/vicuna-7B-v1.5-16K-GGML ・TheBloke/vicuna-13B-v1.5-GGML ・TheBloke/vicuna-13B-v1.5-16K-GGML 2. ローカルPCでの実行ローカルPCでの実行手順は、次のとおりです。 (1) Llama.cppのインストールとビルド。 $ git clone https://github.com/ggerganov/llama.cpp $ cd llama.cpp $ make(2) modelsフォルダにモデルを配置。 今回は、「vicuna-7b-

          Llama.cpp の HTTPサーバー機能を試す|npaka
        • DeepSeek R1 Dynamic 1.58-bit の概要|npaka

          以下の記事が面白かったので、簡単にまとめました。 ・Run DeepSeek R1 Dynamic 1.58-bit - Unsloth 1. DeepSeek R1 Dynamic 1.58-bit「DeepSeek-R1」は、オープンでありながら、「OpenAI」のo1に匹敵することで話題になっています。「Unsloth」では、より多くのローカルユーザーがこれを実行できるようにする方法を検討し、「DeepSeek-R1 671B」を「131GB」のサイズに量子化することに成功しました。これは、非常に機能的でありながら、元の720GBから80%のサイズ削減です。 「DeepSeek R1」のアーキテクチャを研究することで、特定のレイヤーを高bit (4bitなど) で選択的に量子化し、残り多くの MoEレイヤーを 1.5bitのままにすることに成功しました。すべてのレイヤーを単純に量子化

            DeepSeek R1 Dynamic 1.58-bit の概要|npaka
          • ローカル で Llama 2 + LangChain の RetrievalQA を試す|npaka

            3. ローカルでの実行ローカルでの実行手順は、次のとおりです。 (1) Pythonの仮想環境の準備。 (2) 「Llama 2」(llama-2-7b-chat.ggmlv3.q4_0.bin)の準備。 前回と同様です。 (3) パッケージのインストール。 macOSはGPU対応が面倒そうなので、CPUにしてます。 $ pip install llama-cpp-python $ pip install langchain $ pip install faiss-cpu $ pip install sentence_transformers(4) コードの作成。 ・hello_qa.py import logging import sys from langchain.chains import RetrievalQA from langchain.embeddings import H

              ローカル で Llama 2 + LangChain の RetrievalQA を試す|npaka
            • Accelerating Generative AI with PyTorch II: GPT, Fast – PyTorch

              Blog Accelerating Generative AI with PyTorch II: GPT, Fast This post is the second part of a multi-series blog focused on how to accelerate generative AI models with pure, native PyTorch. We are excited to share a breadth of newly released PyTorch performance features alongside practical examples to see how far we can push PyTorch native performance. In part one, we showed how to accelerate Segmen

                Accelerating Generative AI with PyTorch II: GPT, Fast – PyTorch
              • Mergekit-Evolve登場!進化的アルゴリズムで手元のLLMを最強進化させよう!

                前回の記事では、GPUが1枚だけの環境でなるべく高速にローカルでElyzaTasks100の評価を回す方法を示した。 GPUが1枚でもローカルで高速にLLM評価を回したい! だから次はこれ使って進化的アルゴリズムでモデルを進化させてみたいね!という話だったのだが、そんな時、まさに渡りに船のグッドタイミングでMergekit-Evolveが登場した! mergekit-evolve登場!https://t.co/Gx4IJjajba の進化モデルのマージ手法論文を元にMergeKitで実装 競走馬のインブリード配合みたいに父方と母方の4代前と3代前に同じ祖先を持つ4×3の「奇跡の血量」みたいな”黄金配合率”が見つかるかもしれない https://t.co/CD3H1WAeG0 — Ryousuke_Wayama (@wayama_ryousuke) April 24, 2024 Sakana

                  Mergekit-Evolve登場!進化的アルゴリズムで手元のLLMを最強進化させよう!
                • なんJLLM部 避難所

                  0001名無しさん@ピンキー 転載ダメ (ワッチョイ e249-iArR)2023/12/17(日) 21:48:59.66ID:???0 !extend::vvvvv:1000:512 !extend::vvvvv:1000:512 AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2以降 本スレ なんJLLM部 ★6 https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/ VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured 0002名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 21:50:26.11ID:???0 初心

                  • Windows環境で、Llama.cppを用いてローカルLLMを動作させてみた|ハカセ

                    なお、最新の12.3でも動作しました。 2A-1B. Cudaがインストールされている場合、 バージョン情報を確認してください。 バージョンが、12.2.0 または11.7.1ではない場合(12.3でも動作しました)、上記Cudaリンクよりダウンロードインストールしてください。 2B.llama.cppをインストールする以下リンクより、対応したzipファイルをダウンロードします。 現行の最新バージョンは、b1988です。(2024年1月29日時点) Cuda12.2.0の場合、「llama-b1988-bin-win-cublas-cu12.2.0-x64.zip」を、Cuda11.7.1の場合、「llama-b1988-bin-win-cublas-cu11.7.1-x64.zip」をダウンロードしてください。 ダウンロード後、解凍しておきます。 3.Llama.cppを動作させるhtt

                      Windows環境で、Llama.cppを用いてローカルLLMを動作させてみた|ハカセ
                    • キャラ付けプロンプトも公開。APIも。    gguf版,japanese-stablelm-instruct-gamma-7bをllama.cppで動かす。|めぐチャンネル

                      キャラ付けプロンプトも公開。APIも。    gguf版,japanese-stablelm-instruct-gamma-7bをllama.cppで動かす。 それなりの結果が得られたので、速攻で記事にしました。めぐのキャラ付けプロンプトも公開しちゃいました(完全版では無いですが)。生成速度早いし、ローカルLLMでは今までにない感触です。プロンプトがいい加減なので女子高生設定なのに、飲みに行くそうです。でも最後には、「(笑)私はお酒に興味がないけど。」と付け足してますね。 注:)# 推論の実行の下、 stop=["### 入力"], を stop=["### 入力","\n\n### 指示"], に修正、これにより余分な生成が行われにくくなります。2023/10/30 環境llama.cppが動く環境で動作確認。 gitからllama.cppをcliしてディレクトリがあること。 コンパイル

                        キャラ付けプロンプトも公開。APIも。    gguf版,japanese-stablelm-instruct-gamma-7bをllama.cppで動かす。|めぐチャンネル
                      • 【AI】進化的マージモデルを手軽に作れる「mergekit」というツール | IIJ Engineers Blog

                        進化的マージモデルとは? これは、Sakana.aiさんが2024年3月21日発表した、「進化的アルゴリズムによる基盤モデルの構築」で述べられた手法を用いて作られたLLMを指しています。 引用すると、「多様な能力を持つ幅広いオープンソースモデルを融合して、新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見する手法」であるとのことで、その中でも生成されたLLMの一つである EvoLLM-JP は融合元に指定したモデルはベンチマーク成績があまり芳しくないにもかかわらず、融合後のモデルはGPT-3.5に迫る性能を叩き出しました。 Sakana.aiさんでは、その後言語画像モデルとしてEvoVLM-JPを、日本語画像生成モデルとしてEvoSDXL-JPをリリースしています。 今日の人工知能を形作る「モデル」には、モデルを構成する要素に紐付く「重みパラメータ・バイアスパラメータ」

                          【AI】進化的マージモデルを手軽に作れる「mergekit」というツール | IIJ Engineers Blog
                        • GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

                          Accepted at ICLR 2026 (Oral). GEPA: REFLECTIVE PROMPT EVOLUTION CAN OUTPER- FORM REINFORCEMENT LEARNING Lakshya A Agrawal1 , Shangyin Tan1 , Dilara Soylu2 , Noah Ziems4 , Rishi Khare1 , Krista Opsahl-Ong5 , Arnav Singhvi2,5 , Herumb Shandilya2 , Michael J Ryan2 , Meng Jiang4 , Christopher Potts2 , Koushik Sen1 , Alexandros G. Dimakis1,3 , Ion Stoica1 , Dan Klein1 , Matei Zaharia1,5 , Omar Khattab6

                          • torchcomms: a modern PyTorch communications API – PyTorch

                            Introduction Torchcomms is a new experimental, lightweight communication API intended for use with PyTorch Distributed (PTD). In addition to the core API, we are open-sourcing NCCLX, a new backend we developed to scale to over 100,000 GPUs. With our first release of torchcomms, we’re delivering the foundational APIs and backends required for large-scale model training in PyTorch. This initial rele

                            • Google ColabでLLM(llm-jp-3-instruct、HF形式)をGGUF形式に変換する|まゆひらa

                              Google ColabでLLM(llm-jp-3-instruct、HF形式)をGGUF形式に変換する ※ Last update 10-03-2024 ※ (10-3) rinna/gemma-2-baku-2b-it も利用できます。 ※ (10-3) 3-3.に、google/gemma-2-2b-jpn-it への対応方法を追加しました。 ※ 本記事はHugging Face形式のモデルの変換がメインです。GPUは使用しません。モデルの動作確認もできますが遅いので、特にllm-jp-3-instruct 13bは行わない方が良いでしょう。 ※ 記述がややこしくなるため、F16やf16の記述を省いています。こちらが必要な場合はBF16やbf16の部分を読み替えてください。 ※ Windows PC版については、別の記事を公開しています。 ■ 0. はじめに▼ 0-0. 本記事の内容

                                Google ColabでLLM(llm-jp-3-instruct、HF形式)をGGUF形式に変換する|まゆひらa
                              • Qwen3.6-35B-A3Bの動作環境と設定、出力速度まとめ - きしだのHatena

                                Qwen3.6-35B-A3Bを動かしたときの量子化や設定、出力速度をまとめておきます。 Qwen3.6-35B-A3Bでコーディングエージェントを試してみる。小規模なら十分いける - きしだのHatena 基本はこの3環境 RTX 4060 Ti 16GB(+RTX 3050 6GB) M4 Pro 48GB M3 Ultra 512GB 量子化は4つ。メモリ使用量はLM Studioでの予測。 量子化 ファイル 4000tok 262K tok unsloth/Qwen3.6-35B-A3B-GGUF:Q4_K_XL 24.1GB 23.77GB 28.66GB unsloth/Qwen3.6-35B-A3B-GGUF:Q3_K_S 17.1GB 16.9GB 21.8GB unsloth/Qwen3.6-35B-A3B-GGUF:IQ2_M 13.3GB 13.13GB 18.03G

                                  Qwen3.6-35B-A3Bの動作環境と設定、出力速度まとめ - きしだのHatena
                                • **LoRA Fine-Tuning BitNet b1.58 LLMs on Heterogeneous Edge GPUs via QVAC Fabric**

                                  Key Highlights Tether announced a breakthrough in AI model training with the launch of the world’s first cross-platform LoRA fine-tuning framework for Microsoft’s BitNet models (1-bit LLMs). This new capability, part of QVAC Fabric, dramatically reduces memory and compute requirements, enabling billion-parameter language models to be fine-tuned on everyday hardware, including laptops, consumer GPU

                                    **LoRA Fine-Tuning BitNet b1.58 LLMs on Heterogeneous Edge GPUs via QVAC Fabric**
                                  • 文字起こしAI Whisperモデルの更なる活用形 ~ 「負の遺産」とならないために | IIJ Engineers Blog

                                    フロントエンド部分はPHP、バックエンドはPythonで構成していますが、これとは別にジョブスケジューリングにはSlurm Workload Managerを活用しています。 SlurmはGPU排他制御で必要になってくるもので、これによりそれぞれ実行された履歴はジョブとして管理することができる点がうれしいポイントです。 内部で動作するモデルはOpenAI/Whisperです。Whisperがリリースされたときは大変な盛り上がりを見せてたなぁというのをいまだ覚えてまして、このモデルに私もかじりついて一生懸命内部構造を調べてたりしたなーと。 今やすっかりクローズなイメージが固定してしまったOpenAIですが、当時はその境目の時代ということもあり、DALL-E2で使われてたCLIPや書き起こしモデルWhisperはオープンモデルとして、かの有名なGPT-3や画像生成モデル本体であるDALL-E2

                                      文字起こしAI Whisperモデルの更なる活用形 ~ 「負の遺産」とならないために | IIJ Engineers Blog
                                    • The Little Book of Deep Learning

                                      The Little Book of Deep Learning François Fleuret François Fleuret is a professor of computer sci- ence at the University of Geneva, Switzerland. The cover illustration is a schematic of the Neocognitron by Fukushima [1980], a key an- cestor of deep neural networks. This ebook is formatted to fit on a phone screen. Contents Contents 5 List of figures 7 Foreword 8 I Foundations 10 1 Machine Learnin

                                      • GitHub - ComfyUI-Workflow/awesome-comfyui: A collection of awesome custom nodes for ComfyUI

                                        ComfyUI-Gemini_Flash_2.0_Exp (⭐+172): A ComfyUI custom node that integrates Google's Gemini Flash 2.0 Experimental model, enabling multimodal analysis of text, images, video frames, and audio directly within ComfyUI workflows. ComfyUI-ACE_Plus (⭐+115): Custom nodes for various visual generation and editing tasks using ACE_Plus FFT Model. ComfyUI-Manager (⭐+113): ComfyUI-Manager itself is also a cu

                                          GitHub - ComfyUI-Workflow/awesome-comfyui: A collection of awesome custom nodes for ComfyUI
                                        1