並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 6 件 / 6件

新着順 人気順

llama-cpp-python intel gpuの検索結果1 - 6 件 / 6件

  • Llama.cpp で Llama 2 を試す|npaka

    「Llama.cpp」で「Llama 2」を試したので、まとめました。 ・macOS 13.4.1 ・Windows 11 前回 1. Llama.cpp「Llama.cpp」はC言語で記述されたLLMのランタイムです。「Llama.cpp」の主な目標は、MacBookで4bit量子化を使用してLLAMAモデルを実行することです。 特徴は、次のとおりです。 ・依存関係のないプレーンなC/C++実装 ・Appleシリコンファースト (ARM NEON、Accelerate、Metalを介して最適化) ・x86アーキテクチャのAVX、AVX2、AVX512のサポート ・Mixed F16/F32精度 ・4bit、5bit、8bit量子化サポート ・BLASでOpenBLAS/Apple BLAS/ARM Performance Lib/ATLAS/BLIS/Intel MKL/NVHPC/AC

      Llama.cpp で Llama 2 を試す|npaka
    • Fast and Portable Llama2 Inference on the Heterogeneous Edge

      Fast and Portable Llama2 Inference on the Heterogeneous EdgeNov 09, 2023 • 12 minutes to read The Rust+Wasm stack provides a strong alternative to Python in AI inference. Compared with Python, Rust+Wasm apps could be 1/100 of the size, 100x the speed, and most importantly securely run everywhere at full hardware acceleration without any change to the binary code. Rust is the language of AGI. We cr

        Fast and Portable Llama2 Inference on the Heterogeneous Edge
      • WSL2でDeepSeek-R1-Distill-Qwen-32B-Japaneseをllama.cppで試してみる|noguchi-shoji

        株価を暴落させているDeepSeekの蒸溜モデルをCyberAgentさんが追加学習したモデルであるDeepSeek-R1-Distill-Qwen-32B-Japanese。これをmomongaさんが量子化したモデル、を試してみます。 momongaさん、ありがとうございます。 使用するPCはドスパラさんの「GALLERIA UL9C-R49」。スペックは ・CPU: Intel® Core™ i9-13900HX Processor ・Mem: 64 GB ・GPU: NVIDIA® GeForce RTX™ 4090 Laptop GPU(16GB) ・GPU: NVIDIA® GeForce RTX™ 4090 (24GB) ※外付け ・OS: Ubuntu22.04 on WSL2(Windows 11) です。 1. llama.cppのセットアップllama-cpp-pyth

          WSL2でDeepSeek-R1-Distill-Qwen-32B-Japaneseをllama.cppで試してみる|noguchi-shoji
        • ローカルPCでLLMを動かす(llama-cpp-python) | InsurTech研究所

          プレスリリースで「LLMをオープンソースで公開します!」なんてものが流れてくると、自宅のPCで動かしたみたいと思ったりしませんか? 「Amazon SageMakerやGoogle Colabがあるから必要だと思わない」「どうせStable DuffusionのようにVRAM不足で落ちるんでしょ?」、ま、まあそういう面は確かにあるのですが、世の中にはCPUだけで動かしてしまう仕組みもあるのです。CPUだったら自宅PCにも必ず乗っている、つまり、ローカルで動くということです。 ここで紹介する「llama-cpp-python」はその一つです。もちろんCPUだけで動きますが、NVIDIA GeForceのカードが刺さったPC(きっとゲーミングPC)であればもっと快適に動かすオプションもあり、有償版のサービスに手を出す前に、LLMを使って遊びたい方には良いプロダクトだと思います。 llama-c

            ローカルPCでLLMを動かす(llama-cpp-python) | InsurTech研究所
          • llama-cpp-pythonで、OpenAI API互換のサーバーを試す - CLOVER🍀

            これは、なにをしたくて書いたもの? llama-cpp-pythonを使うとOpenAI API互換のサーバーを立てられることを知ったので、ちょっと動かしてみました。 llama-cpp-python llama-cpp-pythonのGitHubリポジトリーはこちら。 GitHub - abetlen/llama-cpp-python: Python bindings for llama.cpp ドキュメントはこちらです。 llama-cpp-python llama-cpp-pythonは、llama.cppのPythonバインディングです。 GitHub - ggerganov/llama.cpp: Port of Facebook's LLaMA model in C/C++ Llamaを使ったアクセスもできるのですが、 High-level API Python Bindings

              llama-cpp-pythonで、OpenAI API互換のサーバーを試す - CLOVER🍀
            • 自作小説をLLMにレビューさせてみる(ローカル4モデル、サービス型4モデル+α)|Kohya S.

              25-2-25: Claude 3.5 Sonnet (Oct 2024)、Claude 3.7 Sonnet Extended 追加(結果のみ) 24-5-14: ChatGPT 4o追加 24-4-29: Qwen1.5-110B-Chat-gguf Q4-K-M 追加(結果のみ) 24-4-18: Command-R+ (cohere playground) 追加(結果のみ) 簡単なまとめ見返したらあまりにも長くて読みづらかったので、Opusの力も借りて、要約を追記しておきます。 【ローカルLLM】 LightChatAssistant-4x7B-f16.gguf: 非常に流暢な日本語で応答するものの、小説の内容理解には限界が見られた。キャッチーな単語に引きずられるなど、ややハルシネーションが見受けられた。ただし、このサイズのモデルとしては驚くべき性能を示している。 c4ai-com

                自作小説をLLMにレビューさせてみる(ローカル4モデル、サービス型4モデル+α)|Kohya S.
              1