本文「llama-cpp-python gpu」を検索 - はてなブックマーク

1 - 25 件 / 25件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

llama-cpp-python gpuの検索結果1 - 25 件 / 25件

歴代チャットボットと最近のLLMのまとめ - Qiita
- 187 users
- qiita.com/Ted-HM
- テクノロジー
- 2023/06/02
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? LLMs The History of Chatbots ELIZA (1966) 初期の人工知能プログラムのひとつ。ルールベースの簡単なパターンマッチングで返答していた。心理療法士の会話を模したELIZA(DOCTOR)が有名。 PARRY (1972) PARRYは偏執病的統合失調症患者をシミュレートしようとしたもの。 ELIZA(DOCTOR)と通信し話題となった。 Jabberwacky (1982, 1988, 1997) ユーモラスな人間同士の自然な会話をシミュレートすることを目的としていた。ユーザーとの会話の大規模な
- AI
- 機械学習
- あとで読む
- 人工知能
- BERT
- 学習
- techfeed
- Qiita
- 勉強
Llama 3.2 の使い方｜npaka
- 72 users
- note.com/npaka
- テクノロジー
- 2024/09/28
以下の記事が面白かったので、簡単にまとめました。・Llama can now see and run on your device - welcome Llama 3.2 1. Llama 3.2 Vision 11B・90B1-1. Llama 3.2 Vision 11B・90B「Llama 3.2 Vision 11B・90B」は、Metaがリリースした最も強力なオープンマルチモーダルモデルです。画像+テキストのプロンプトでは英語のみ、テキストのみのプロンプトでは英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語をサポートしています。コンテキスト長は128kトークンで、画像を含む可能性のある複数ターンの会話が可能です。ただし、モデルは単一の画像に注目する場合に最適に機能するため、transformers実装では入力で提供された最後の画像のみに注
- LLM
- あとで読む
- text
- AI
LlamaIndexを使ってローカル環境でRAGを実行する方法 - 電通総研テックブログ
- 47 users
- tech.dentsusoken.com
- テクノロジー
- 2024/01/22
こんにちは。電通総研コーポレート本部システム推進部の山下です。最近はChatGPTなどのLarge Language Model(LLM)を利用したAIが話題ですね。そのLLMを応用したRetrieval-Augmented Generation(RAG)という技術があります。これは、LLMに文書検索などを用いて関連する情報を与えて回答させることで、 LLMが知識として持っていない内容を回答させたり誤った情報を答えてしまうハルシネーションを抑止する技術です。今回はこのRAGをLlamaIndexというライブラリを使ってローカル環境で実装する方法について紹介します。なぜローカル環境でLLMを利用したいのか大変便利なツールのLLMですが、利用が難しいこともあります。例えば、機密情報を取扱いたい、外部インターネットへの接続に制限が掛かっているといった場合です。最終的にOpenAI
- llm
- ai
- あとで読む
- technology
- Python
- プログラミング
- programming
Llama.cpp で Llama 2 を試す｜npaka
- 44 users
- note.com/npaka
- テクノロジー
- 2023/07/19
「Llama.cpp」で「Llama 2」を試したので、まとめました。・macOS 13.4.1 ・Windows 11 前回 1. Llama.cpp「Llama.cpp」はC言語で記述されたLLMのランタイムです。「Llama.cpp」の主な目標は、MacBookで4bit量子化を使用してLLAMAモデルを実行することです。特徴は、次のとおりです。・依存関係のないプレーンなC/C++実装・Appleシリコンファースト (ARM NEON、Accelerate、Metalを介して最適化) ・x86アーキテクチャのAVX、AVX2、AVX512のサポート・Mixed F16/F32精度・4bit、5bit、8bit量子化サポート・BLASでOpenBLAS/Apple BLAS/ARM Performance Lib/ATLAS/BLIS/Intel MKL/NVHPC/AC
- 機械学習
- Python
- LLM
- C++
- 人工知能
ゼロからはじめるPython(106) プログラム生成AIのCodeLlamaを手元のPCでも動かしてみよう
- 39 users
- news.mynavi.jp
- テクノロジー
- 2023/08/26
ChatGPTを筆頭にした「大規模言語モデル(LLM)」と呼ばれるAIが話題に上らない日はない。このAIが得意なタスクには「プログラムの自動生成」が挙げられるが、Metaからプログラム生成に特化したCodeLlamaが商用利用可能なオープンなライセンスでリリースされた。そこで実際に使ってみよう。 CodeLlamaで素数判定のプログラムを自動生成させたところプログラミングは大規模言語モデルが得意とするタスクリリースからわずか2ヶ月で1億ユーザーを達成した「ChatGPT」の公開から本稿執筆時点で8ヶ月が過ぎた。筆者も業務でChatGPTをはじめ、Github Copilotなど、大規模言語モデル(LLM)関連サービスを使わない日はないくらいだ。特に「プログラミング」は、間違いなく大規模言語モデルが得意とするタスクであり、GitHub Copilotを利用している多くの人がその利便性を
日本語LLM 9種を量子化して回答内容を比較調査してみた - Qiita
- 39 users
- qiita.com/wayama_ryousuke
- テクノロジー
- 2024/04/10
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? TL;DR 量子化しても成績が下がりにくいモデルと、大きく下がるモデルがある一部のモデルは量子化すると回答が極端に短くなる量子化によって回答が短くなる度合いは、量子化前モデルの回答の長さと相関がある可能性があるはじめに皆さんは量子化したLLMを使っていますか？深層学習における量子化（quantization）とは、モデルのパラメータを少ないビット数で表現することです。通常のモデルは float32 などの高精度なデータ型を使ってパラメータを表現しますが、この精度を float16 や int8 に下げることを量子化といいま
m1 MacbookにLlama 2をインストールして使ってみる | DevelopersIO
- 34 users
- dev.classmethod.jp
- テクノロジー
- 2023/07/31
支給されているPC(m1 Macbook)を使ってローカルでLlama 2を動かしてみるまでの記録です。 AppleシリコンのMacでもLlama 2をつかえるようにするLlama.cppというプロジェクトがあるので、これを利用させてもらいました。 Llama.cppはLlamaをC/C++に移植したもので、Mac上で4ビット整数量子化を使ってLlama 2をローカルに実行できるようにしたものです Llama 2のモデルはmetaのダウンロードリンクから取得しています。準備作業用のディレクトリを作成して行います。 $ mkdir llama2 $ cd llama2 Llama 2, Llama.cppのgithubレポジトリをcloneしておきます。 $ git clone https://github.com/facebookresearch/llama.git $ git clo
- LLaMA
- mac
- あとで読む
- モデル
OpenInterpreter をMetalを使ったローカルのCode Llamaで使ってみた｜alexweberk
- 17 users
- note.com/alexweberk
- テクノロジー
- 2023/09/11
OpenInterpreter はデフォルトだと GPT-4 が使われるが、ローカルの Code Llama を使うこともできるということで、試しに設定して使ってみました。設定をする上で何点かつまづいたので、解決に繋がったものをメモします。今回使ったハードウェア環境は、M1 Macbook Pro 16GB です。ローカルの Code Llama を使うにはOpenInterpreter は、ローカルの Code Llama を使うことができます。ローカルの Code Llama を使うには、以下のようにします。 interpreter --local使いたいモデルのパラーメータを聞かれるので、今回は「7B」「Medium」「GPU あり」を選択しました。 Open Interpreter will use Code Llama for local execution. Use
Fast and Portable Llama2 Inference on the Heterogeneous Edge
- 16 users
- www.secondstate.io
- テクノロジー
- 2023/11/13
Fast and Portable Llama2 Inference on the Heterogeneous EdgeNov 09, 2023 • 12 minutes to read The Rust+Wasm stack provides a strong alternative to Python in AI inference. Compared with Python, Rust+Wasm apps could be 1/100 of the size, 100x the speed, and most importantly securely run everywhere at full hardware acceleration without any change to the binary code. Rust is the language of AGI. We cr
- LLM
- Rust
- wasm
- AI
- *あとで読む
- あとで読む
WSL2でDeepSeek-R1-Distill-Qwen-32B-Japaneseをllama.cppで試してみる｜noguchi-shoji
- 16 users
- note.com/ngc_shj
- テクノロジー
- 2025/01/30
株価を暴落させているDeepSeekの蒸溜モデルをCyberAgentさんが追加学習したモデルであるDeepSeek-R1-Distill-Qwen-32B-Japanese。これをmomongaさんが量子化したモデル、を試してみます。 momongaさん、ありがとうございます。使用するPCはドスパラさんの「GALLERIA UL9C-R49」。スペックは・CPU: Intel® Core™ i9-13900HX Processor ・Mem: 64 GB ・GPU: NVIDIA® GeForce RTX™ 4090 Laptop GPU(16GB) ・GPU: NVIDIA® GeForce RTX™ 4090 (24GB)　※外付け・OS: Ubuntu22.04 on WSL2（Windows 11）です。 1. llama.cppのセットアップllama-cpp-pyth
- あとで読む
ローカルで Llama 2 + LangChain の RetrievalQA を試す｜npaka
- 14 users
- note.com/npaka
- 暮らし
- 2023/07/20
3. ローカルでの実行ローカルでの実行手順は、次のとおりです。 (1) Pythonの仮想環境の準備。 (2) 「Llama 2」(llama-2-7b-chat.ggmlv3.q4_0.bin)の準備。前回と同様です。 (3) パッケージのインストール。 macOSはGPU対応が面倒そうなので、CPUにしてます。 $ pip install llama-cpp-python $ pip install langchain $ pip install faiss-cpu $ pip install sentence_transformers(4) コードの作成。・hello_qa.py import logging import sys from langchain.chains import RetrievalQA from langchain.embeddings import H
- あとで読む
Thonny用のCopilotを作った話、教育用のローカルLLM vibe coding 環境の制作｜tokoroten
- 12 users
- note.com/tokoroten_jp
- テクノロジー
- 2025/07/01
ThonnyというPythonの教育用の環境はご存じでしょうか。Python 3.10がインクルードされており、エラーも分かりやすく、インタラクティブなシェルもあり、教育現場をはじめとして幅広い環境で使われています。RasberryPiには標準搭載されていたりします。とはいえ昨今のプログラミング環境は、VSCodeでGithub Copilot でエージェントをぶん回したり、Clineだったり、Claude Codeだったりといった、AIによるvive codingによって生産性が爆増しています。しかし、いずれの環境も有償であり、クレジットカードを持っていないと使えないという問題があります。そしてクレジットカードを持ち、自らの意志で自由に使うには18歳以上である必要があります。そのため、現代の環境では vibe coding を子供たちが自由に行うことができないという問題があります。
- Python
- あとで読む
ローカルLLM"Phi-3"をWindows CPUで動かす
- 10 users
- zenn.dev/acntechjp
- テクノロジー
- 2024/05/02
はじめにおれの名前は樋口恭介。Phi-3というMicrosoftから2024年4月23日にリリースされた小規模LLMが、ギリCPUでも動くうえにGPT-3.5よりも精度が高いということで、触ってみることにした。まずはGoogle Colab上でCPUを選択し、動きを確認したところ、通常モデルでも20分～30分程度で、かなり精度が高い回答が得られ、4bit量子化モデルだと、2分～3分程度で、それなりの出力が得られることがわかった。そこで、気分がもりあがってきたので、自身のローカルPC（Windows11、GPUなし、メモリ16GB）でも動かしてみることにした。以下はそのときの試行錯誤のメモである（ほぼ趣味の領域の活動だが、業務時間中に行ったので、こうしてちゃんと会社のブログで手順をまとめているというわけだ）。何も考えずにやるとけっこうハマりポイントが多かった気がするので、ぜひ参考にし
- cpu
- windows
非力なパソコンでもLLMを動かしたい!? llama.cppの紹介 | CyberAgent Developers Blog
- 10 users
- developers.cyberagent.co.jp
- テクノロジー
- 2024/02/04
この記事は CyberAgent Developers Advent Calendar 2023 19日目の記事です。本日はメディア統括本部 Data Science Center の山本が担当します。サイバーエージェントではAzure OpenAI ServiceやGoogle CloudのVertex AIなど様々なクラウドサービスのプラットフォームを利用したコンテンツ生成のPoC作成やそれを発展させた形での実サービスへの展開を行なっております。このようなプラットフォームは気軽にやりたいことを試せる点では非常に便利ではあります。一方、APIリクエストへの即応性やコスト等々の観点で、画像生成や言語生成のモデルを、用意したマシンインスタンスに展開して推論を行いたい状況も存在します。このとき問題になるのはマシンインスタンスのスペックです。高性能なGPUが載っていて、CPU、メモリ
- LLM
- Python
日本語のローカルLLM（文章生成AI）をWindowsで動かす - Qiita
- 7 users
- qiita.com/kenta1984
- テクノロジー
- 2024/08/05
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに LLM1は検索エンジンや翻訳ツールのように多くの人達にとって欠かせないサービスになりつつあります。ところが、ChatGPT、Gemini、ClaudeなどのLLMの代表的なサービスの多くはSaaSとして提供されており、セキュリティ上の懸念から機密性の高い情報をLLMにかけることができないという問題があります。そのため、LLMを十分に活用しきれていないという組織が多いと思います。特に、機密性が高い情報を扱う組織では、LLMを扱える業務が非常に限られているという状況になっているはずです。ローカルLLMとは？ローカルLLMと
- AI
- Python
ローカルPCでLLMを動かす（llama-cpp-python） | InsurTech研究所
- 6 users
- www.insurtechlab.net
- テクノロジー
- 2023/09/29
プレスリリースで「LLMをオープンソースで公開します！」なんてものが流れてくると、自宅のPCで動かしたみたいと思ったりしませんか？「Amazon SageMakerやGoogle Colabがあるから必要だと思わない」「どうせStable DuffusionのようにVRAM不足で落ちるんでしょ？」、ま、まあそういう面は確かにあるのですが、世の中にはCPUだけで動かしてしまう仕組みもあるのです。CPUだったら自宅PCにも必ず乗っている、つまり、ローカルで動くということです。ここで紹介する「llama-cpp-python」はその一つです。もちろんCPUだけで動きますが、NVIDIA GeForceのカードが刺さったPC（きっとゲーミングPC）であればもっと快適に動かすオプションもあり、有償版のサービスに手を出す前に、LLMを使って遊びたい方には良いプロダクトだと思います。 llama-c
- python
なんJLLM部避難所
- 5 users
- mercury.bbspink.com
- テクノロジー
- 2024/04/04
0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ e249-iArR)2023/12/17(日) 21:48:59.66ID:???0 !extend::vvvvv:1000:512 !extend::vvvvv:1000:512 AIに色々なことをしゃべってもらうんやでそこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで自薦・他薦のモデルやツールは>>2以降本スレなんJLLM部 ★6 https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/ VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured 0002名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)2023/12/17(日) 21:50:26.11ID:???0 初心
OpenAI API互換のサーバーをローカルで動かせるLocalAIを試す - CLOVER🍀
- 4 users
- kazuhira-r.hatenablog.com
- テクノロジー
- 2024/06/19
これは、なにをしたくて書いたもの？以前、ローカルで動かせるOpenAI API互換のサーバーとしてllama-cpp-pythonを使ってみました。 llama-cpp-pythonで、OpenAI API互換のサーバーを試す - CLOVER🍀 他にも同様のことができるものとして、LocalAIというものがあることを知ったのでこちらを試してみようかなと。 LocalAI LocalAIのWebサイトはこちら。 LocalAI :: LocalAI documentation GitHubリポジトリーはこちらです。 GitHub - mudler/LocalAI: :robot: The free, Open Source OpenAI alternative. Self-hosted, community-driven and local-first. Drop-in replace
llama-cpp-pythonで、OpenAI API互換のサーバーを試す - CLOVER🍀
- 4 users
- kazuhira-r.hatenablog.com
- テクノロジー
- 2024/04/04
これは、なにをしたくて書いたもの？ llama-cpp-pythonを使うとOpenAI API互換のサーバーを立てられることを知ったので、ちょっと動かしてみました。 llama-cpp-python llama-cpp-pythonのGitHubリポジトリーはこちら。 GitHub - abetlen/llama-cpp-python: Python bindings for llama.cpp ドキュメントはこちらです。 llama-cpp-python llama-cpp-pythonは、llama.cppのPythonバインディングです。 GitHub - ggerganov/llama.cpp: Port of Facebook's LLaMA model in C/C++ Llamaを使ったアクセスもできるのですが、 High-level API Python Bindings
microsoft/Phi-3-mini-4k-instruct-gguf · Hugging Face
- 4 users
- huggingface.co
- テクノロジー
- 2024/04/24
Intended Uses Primary use cases The model is intended for commercial and research use in English. The model provides uses for applications which require memory/compute constrained environments latency bound scenarios strong reasoning (especially math and logic) long context Our model is designed to accelerate research on language and multimodal models, for use as a building block for generative AI
自作小説をLLMにレビューさせてみる（ローカル4モデル、サービス型4モデル+α）｜Kohya S.
- 3 users
- note.com/kohya_ss
- テクノロジー
- 2024/04/18
25-2-25: Claude 3.5 Sonnet (Oct 2024)、Claude 3.7 Sonnet Extended 追加（結果のみ） 24-5-14: ChatGPT 4o追加 24-4-29: Qwen1.5-110B-Chat-gguf Q4-K-M 追加（結果のみ） 24-4-18: Command-R+ (cohere playground) 追加（結果のみ）簡単なまとめ見返したらあまりにも長くて読みづらかったので、Opusの力も借りて、要約を追記しておきます。【ローカルLLM】 LightChatAssistant-4x7B-f16.gguf: 非常に流暢な日本語で応答するものの、小説の内容理解には限界が見られた。キャッチーな単語に引きずられるなど、ややハルシネーションが見受けられた。ただし、このサイズのモデルとしては驚くべき性能を示している。 c4ai-com
- 小説
Llama 2のLLM(モデル)をGGUFに変換する｜e
- 3 users
- note.com/educator
- テクノロジー
- 2024/02/26
なぜ、こんなことを思われるかもしれないが、自宅のPCはグラボは積まれているが、とてもではないがAIの分野で処理されている性能はない。従って、GPUを使わず、CPUとメモリで処理させたいという要望が出てきた。奇跡的にＣＰＵで処理させているツワモノがいたので、ありがたく使用するためのモデルの変換である前提Windowsのメモリは16GBはあった方がいい。ざっくり、モデルを使用したときに10GB程度は間違いなく消費しているので、それより下は難しいかもしれない今回のプログラムではCPUで処理させた。高いGPUを買うよりはマシかとLlamaのモデルのダウンロードが完了していること事前準備後述するが、llama.cppを使用するにあたり記載のあった w64devkitのfortranを含むzip(w64devkit-fortran-1.20.0.zip)をダウンロードして解凍しておくこと。実はf
OllamaをOpenAI互換サーバーとして使用し、Spring AIからアクセスする - IK.AM
- 3 users
- ik.am
- テクノロジー
- 2024/06/30
LocalでLLMを試すのにOllamaが人気です。Spring AIにはOllama用のChat Clientが用意されていますが、OllamaにはOpenAI API互換APIも用意されているので、OpenAIへの切り替えも想定して、OpenAI用のChat Clientを使ってOllamaにアクセスしてみます。 Warning Spring AIのOpenAI Clientは1.0.0-M1時点で、Ollama含む多くの互換APIプロバイダーが実装していないAPIを使用しています。こちらのコミットで使用するAPIが修正されたため、本記事ではSpring AI 1.0.0-SNAPSHOTを使用しています。目次 OllamaのインストールOllamaの起動Gemmaモデルを使用Llama3モデルの使用Spring AIでOllamaにアクセス Ollamaのインストール brew
- ollama
GitHub - ComfyUI-Workflow/awesome-comfyui: A collection of awesome custom nodes for ComfyUI
- 3 users
- github.com/ComfyUI-Workflow
- テクノロジー
- 2025/01/08
ComfyUI-Gemini_Flash_2.0_Exp (⭐+172): A ComfyUI custom node that integrates Google's Gemini Flash 2.0 Experimental model, enabling multimodal analysis of text, images, video frames, and audio directly within ComfyUI workflows. ComfyUI-ACE_Plus (⭐+115): Custom nodes for various visual generation and editing tasks using ACE_Plus FFT Model. ComfyUI-Manager (⭐+113): ComfyUI-Manager itself is also a cu
Llama2とは？使い方・日本語性能・商用利用について解説 | 初心者ガイド
- 3 users
- soroban.highreso.jp
- テクノロジー
- 2024/03/21
この記事では、Llama2について幅広く解説しています。Llama2の性能や安全性、商用利用、日本語対応、様々な環境での使い方などに触れています。目次[非表示] 1.Llama2とは 2.Llama2の性能と安全性（ChatGPTとの比較） 2.1.有用性の評価 2.2.安全性の評価 3.Llama2モデルのバリエーション（7b,13b,70b,Chat） 4.Llama2は無料で使えて商用利用も可能 5.クローズドなローカル環境で使える軽量LLM 6.Llama2の日本語モデル（ELYZA-japanese-Llama-2） 7.Llama2を動かすにはGPUが必要 8.Llama2を使用するための環境 9.Windows + GPUのローカル環境 10.Windows + CPUのローカル環境（Llama.cpp、Llama-cpp-python） 11.Macのローカル環境（Lla
- あとで読む