並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 74件

新着順 人気順

llama cpp gguf pythonの検索結果1 - 40 件 / 74件

  • とほほのローカルAI入門 - とほほのWWW入門

    docker run -it --name hf python:3.14 bash apt update apt -y install vim pip install transformers torch from transformers import pipeline pipe = pipeline(task="text-generation", model="distilgpt2") print(pipe("Hello")) Can I Run AI locally? 概要 https://www.canirun.ai/ WebGPU などの技術を用いてアクセス元 PC のスペックを調べ、スペックに応じたモデルをリストアップしてくれるサイトです。 ダウンロードサイズやメモリ消費量・速度などの目安も提示してくれます。 Llama.cpp 概要 LLaMa, Mistral, Gemma

    • 「1.58ビットに進化したから8GBで十分ですよ。任せてくださいよ」とBonsaiが言うのでMacBook Neoに組み込んでその性能差を体感。iPhoneでも楽々動くしで、ローカルAIが超進化中(CloseBox) | テクノエッジ TechnoEdge

      600MBの増加で、ベンチマークが5ポイント上がっています。1.15GBから1.75GBへの53%増に対して、品質は7%向上。FP16のQwen3 8B(16.38GB)にはまだ及ばないものの、メモリは9.4分の1です。MMLU Redux、MuSR、GSM8K、HumanEval+、IFEval、BFCLv3と広範なベンチマークで均等にスコアが伸びている、というのがPrismMLの説明です。 8GBのMacBook Neoで動かしてみる前回のBonsai 8Bは、PrismMLフォーク版のllama-serverが必要でした。GGUF形式で、専用のQ1_0_g128カーネルを通して動きます。 Ternary BonsaiはMLX形式のみ。つまりApple Siliconネイティブです。HuggingFaceのモデルID は `prism-ml/Ternary-Bonsai-8B-mlx-

        「1.58ビットに進化したから8GBで十分ですよ。任せてくださいよ」とBonsaiが言うのでMacBook Neoに組み込んでその性能差を体感。iPhoneでも楽々動くしで、ローカルAIが超進化中(CloseBox) | テクノエッジ TechnoEdge
      • ついにBitNet Llama8Bが登場! CPUのみで爆速推論するLLM,BitNet.cpp|shi3z

        科学の世界では、それまでの常識が覆ることを俗に「パラダイムシフト」と呼ぶ。 しかし、もしもAIの世界にパラダイムシフトという言葉があるとしたら、今週の人類は一体何度のパラダイムシフトを経験しただろうか。 そのトドメの一撃とも言えるのが、BitNetのLlama8B版だ。 Lllama-8B構造で学習された最初のBitNetであり、全てを変えてしまうゲームチェンジャーでもある。CPUのみで秒間5-20トークンを出力する。超強力なLLM推論エンジンの出現だ。 BitNetとは、そもそも1.58ビットに相当する情報量で、本来は4ビット以上必要な大規模言語モデルの計算を劇的に高速化する技術である。 LLMの推論には通常は巨大な浮動小数点数(8ビットから16ビット)の、大量の乗算(掛け算)が必要なため、GPUなどの特殊な半導体を必要としていた。特にNVIDIAのGPUがこの目的にマッチしていたので今

          ついにBitNet Llama8Bが登場! CPUのみで爆速推論するLLM,BitNet.cpp|shi3z
        • Cline+ローカル版DeepSeek R1でAIコーディングを使い放題にする(高スペックマシン向け)|しぴちゃん

          しぴぴぴ! Vtuberのしぴちゃん (https://www.youtube.com/@CP-chan) です。 配信ではゲームの話しかしてませんが、今回はAIに関する連載ということでローカル環境(手元のマシン)で動かせるAIの話をしていきます。 第一弾 DeepSeek R1をほぼ準備なしからローカルGPUで動かす 第二弾 本記事 Cline+ローカル版DeepSeek R1でAIコーディングを使い放題にする(高スペックマシン向け) 第三弾 GPUなしでも動く!ローカルLLMとllama.vscodeでコード補完 今回は連載の第二弾です。 LLMをローカルにインストールする大きなメリットとして、API制限や従量課金から解放されてLLMが「使い放題」になるという点があります。 DeepSeekは一世代前のV3ならWebで使ってもそんなに高くないのですが (https://api-docs

            Cline+ローカル版DeepSeek R1でAIコーディングを使い放題にする(高スペックマシン向け)|しぴちゃん
          • 歴代チャットボットと最近のLLMのまとめ - Qiita

            Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? LLMs The History of Chatbots ELIZA (1966) 初期の人工知能プログラムのひとつ。 ルールベースの簡単なパターンマッチングで返答していた。 心理療法士の会話を模したELIZA(DOCTOR)が有名。 PARRY (1972) PARRYは偏執病的統合失調症患者をシミュレートしようとしたもの。 ELIZA(DOCTOR)と通信し話題となった。 Jabberwacky (1982, 1988, 1997) ユーモラスな人間同士の自然な会話をシミュレートすることを目的としていた。 ユーザーとの会話の大規模な

              歴代チャットボットと最近のLLMのまとめ - Qiita
            • 【これがゲームチェンジャーか!】松尾研のTanuki-8BとTanuki-8x8Bを試す|shi3z

              なぜタヌキなのか? その謎は謎のままだが、とにかく日本語性能がGemini1.5Proに次ぎ、少し前のGPT-4よりも高い上に商用利用可能という太っ腹仕様なので使わない手はない。むしろこれさえあればもう誰もGPTに課金しなくて済む、そんな未来が来るのかもしれない。 しかし、Tanukiは特殊な何かをしてるらしくMLXに簡単にコンバートできずvllmで動かすときもちょっと魔改造したvllmが必要になるという。 最近ローカルづいてる吾輩としてはできればMLXで動かしたいのだがMLXがまだTanukiに対応してない(し、そもそも何をすればTanuki対応にできるのかよくわからない)ので、とりあえず「非推奨」とされてはいるものの、Macでもギリギリ動きそうなGGUF版を動かしてみた。 from llama_cpp import Llama filename = "Tanuki-8B-dpo-v1.

                【これがゲームチェンジャーか!】松尾研のTanuki-8BとTanuki-8x8Bを試す|shi3z
              • わずか4GBの実行ファイル1つで大規模言語モデルによるAIを超お手軽に配布・実行できる仕組み「llamafile」をWindowsとLinuxで簡単に実行してみる方法

                「llamafile」は大規模言語モデルのモデルやウェイトの情報が1つの実行ファイルにまとまった形式のファイルです。Linux・macOS・Windows・FreeBSD・NetBSD・OpenBSDという6つのOS上でインストール不要で大規模言語モデルを動作させることが可能とのことなので、実際にWindowsおよびLinuxディストリビューションの1つであるDebian上で動かしてみました。 Mozilla-Ocho/llamafile: Distribute and run LLMs with a single file. https://github.com/Mozilla-Ocho/llamafile#readme Introducing llamafile - Mozilla Hacks - the Web developer blog https://hacks.mozilla

                  わずか4GBの実行ファイル1つで大規模言語モデルによるAIを超お手軽に配布・実行できる仕組み「llamafile」をWindowsとLinuxで簡単に実行してみる方法
                • 無料でローカルAIモデルのメモリ使用量を最大80%削減し処理速度を2倍に向上させる「Unsloth Studio」、Windows・macOS・Linux対応でチャットだけならCPUのみでもOKでスマホでも動作可能

                  ローカル環境でオープンソースのAIモデルを訓練、実行、および出力するための統合されたウェブUI「Unsloth Studio」は複雑なプログラミングコードを記述することなく直感的に操作でき、ベータ版として公開されています。ユーザーは100%オフラインの環境でAIモデルを自身のコンピュータ上で動かすことができ、データのプライバシーと制御を維持することが可能です。 unslothai/unsloth-studio: Unsloth Studio https://github.com/unslothai/unsloth-studio Introducing Unsloth Studio | Unsloth Documentation https://unsloth.ai/docs/new/studio How to Run models with Unsloth Studio | Unsloth

                    無料でローカルAIモデルのメモリ使用量を最大80%削減し処理速度を2倍に向上させる「Unsloth Studio」、Windows・macOS・Linux対応でチャットだけならCPUのみでもOKでスマホでも動作可能
                  • Raspberry Pi 5でローカルLLM”DeepSeek-R1″を動かしてみる | YouTuber イチケン 公式ブログ

                    2025年1月20日、DeepSeekが開発したDeepSeek-R1が発表されました。オープンソースであり推論モデルが公開されているため個人のPCをはじめとしたローカル環境上で動作させることができます。 今回は色々な意味で世間を騒がせているDeepSeek-R1をRaspberry Pi 5の上で動かして、手のひらサイズのローカルLLMを体験してみたいと思います。 なお、本記事は動画の内容をさらに発展させた内容になっています。動画の方もぜひあわせてご覧ください。 今回作成するもの ローカルLLMを触るのは初めてなので、とりあえずシンプルにLLMと対話するまでを目標とします。 要件 今回達成すべき要件を以下のように定義しました。 Raspberry Pi 5(8GBモデル)上で動作する。 DeepSeek-R1と日本語で対話できるUI(最低限CUIで、できればGUIで)。 Windows環

                    • ローカル環境でコード生成を使いたい 〜Continue+Llama.cpp+ELYZA-japanese-CodeLlamaを試してみた〜 - GMOインターネットグループ グループ研究開発本部

                      2024.01.12 ローカル環境でコード生成を使いたい 〜Continue+Llama.cpp+ELYZA-japanese-CodeLlamaを試してみた〜 ご覧頂きありがとうございます。グループ研究開発本部 AI 研究開発室の N.M.と申します。 ChatGPTをはじめAIに関する大きなムーブメントの起きた激動の2023年が終わり、2024年が始まりました。我々AI研究開発室も日々AI技術を追いかけています。昨年から話題になることの多いGitHub Copilotもその一つであり、特にコードの補完は非常に使い勝手もよく開発や解析のサポートに使うことができます。今回はなるべくローカルに閉じた状態で近しい環境が作れないか試してみたことを紹介します。最後までご覧いただければ幸いです。 TL;DR VSCodeのExtensionであるContinueとELYZA-japanese-Cod

                      • Llama 3.2 の使い方|npaka

                        以下の記事が面白かったので、簡単にまとめました。 ・Llama can now see and run on your device - welcome Llama 3.2 1. Llama 3.2 Vision 11B・90B1-1. Llama 3.2 Vision 11B・90B「Llama 3.2 Vision 11B・90B」は、Metaがリリースした最も強力なオープンマルチモーダルモデルです。画像+テキストのプロンプトでは英語のみ、テキストのみのプロンプトでは英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語をサポートしています。 コンテキスト長は128kトークンで、画像を含む可能性のある複数ターンの会話が可能です。ただし、モデルは単一の画像に注目する場合に最適に機能するため、transformers実装では入力で提供された最後の画像のみに注

                          Llama 3.2 の使い方|npaka
                        • gpt-oss の使い方|npaka

                          以下の記事が面白かったので、簡単にまとめました。 ・Welcome GPT OSS, the new open-source model family from OpenAI! 1. gpt-oss「gpt-oss」は、OpenAIによる待望のオープンウェイトリリースであり、強力なReasoning、エージェントタスク、そして多様な開発者ユースケース向けに設計されています。117Bのパラメータを持つ大規模モデル「gpt-oss-120b」と、21Bのパラメータを持つ小規模モデル「gpt-oss-20b」の2つのモデルで構成されています。どちらも「MoE」(Mixture-of-Experts) であり、MXFP4を使用することで、リソース使用量を抑えながら高速推論を実現します。大規模モデルは単一のH100 GPUに収まり、小規模モデルは16GBのメモリ内で動作し、コンシューマーハードウェア

                            gpt-oss の使い方|npaka
                          • 8GBメモリでOK!Raspberry Pi 5で使える日本語対応ローカルLLM一覧 - uepon日々の備忘録

                            以前のエントリなどでも触れていましたが、Raspberry Pi 5(8GB RAM)でリアルタイム対話可能な日本語LLMは実現可能となりつつあります。それも、特別なハードウェアを使用することなしにです。 これは、1B〜3Bパラメータのモデルでもかなり優秀になってきているからです。そのなかでもGemma3:1b、TinySwallow-1.5B(日本語特化)、Qwen2.5:1.5b〜3bといったモデルが有力な候補となるでしょう。 (7Bクラスは動作はしますがかなり遅く実用性に難あり) また、プラットフォーム的な話としては、llama.cppはOllamaより10〜20%高速ですが、セットアップの容易さではOllamaが優れています。Ollamaで試してみて、更なる高速化が必要となればllama.cppに乗り換えるというのがいいかもしれません。 今回想定しているハードウェア・OSの要件 R

                              8GBメモリでOK!Raspberry Pi 5で使える日本語対応ローカルLLM一覧 - uepon日々の備忘録
                            • LlamaIndexを使ってローカル環境でRAGを実行する方法 - 電通総研 テックブログ

                              こんにちは。電通総研コーポレート本部システム推進部の山下です。 最近はChatGPTなどのLarge Language Model(LLM)を利用したAIが話題ですね。 そのLLMを応用したRetrieval-Augmented Generation(RAG)という技術があります。 これは、LLMに文書検索などを用いて関連する情報を与えて回答させることで、 LLMが知識として持っていない内容を回答させたり誤った情報を答えてしまうハルシネーションを抑止する技術です。 今回はこのRAGをLlamaIndexというライブラリを使ってローカル環境で実装する方法について紹介します。 なぜローカル環境でLLMを利用したいのか 大変便利なツールのLLMですが、利用が難しいこともあります。 例えば、機密情報を取扱いたい、外部インターネットへの接続に制限が掛かっているといった場合です。 最終的にOpenAI

                                LlamaIndexを使ってローカル環境でRAGを実行する方法 - 電通総研 テックブログ
                              • Llama.cpp で Llama 2 を試す|npaka

                                「Llama.cpp」で「Llama 2」を試したので、まとめました。 ・macOS 13.4.1 ・Windows 11 前回 1. Llama.cpp「Llama.cpp」はC言語で記述されたLLMのランタイムです。「Llama.cpp」の主な目標は、MacBookで4bit量子化を使用してLLAMAモデルを実行することです。 特徴は、次のとおりです。 ・依存関係のないプレーンなC/C++実装 ・Appleシリコンファースト (ARM NEON、Accelerate、Metalを介して最適化) ・x86アーキテクチャのAVX、AVX2、AVX512のサポート ・Mixed F16/F32精度 ・4bit、5bit、8bit量子化サポート ・BLASでOpenBLAS/Apple BLAS/ARM Performance Lib/ATLAS/BLIS/Intel MKL/NVHPC/AC

                                  Llama.cpp で Llama 2 を試す|npaka
                                • 日本語LLM 9種を量子化して回答内容を比較調査してみた - Qiita

                                  Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? TL;DR 量子化しても成績が下がりにくいモデルと、大きく下がるモデルがある 一部のモデルは量子化すると回答が極端に短くなる 量子化によって回答が短くなる度合いは、量子化前モデルの回答の長さと相関がある可能性がある はじめに 皆さんは量子化したLLMを使っていますか? 深層学習における量子化(quantization) とは、モデルのパラメータを少ないビット数で表現することです。 通常のモデルは float32 などの高精度なデータ型を使ってパラメータを表現しますが、この精度を float16 や int8 に下げることを量子化といいま

                                    日本語LLM 9種を量子化して回答内容を比較調査してみた - Qiita
                                  • LINE LLMをMacで動かす - きしだのHatena

                                    先日、LINE(現LINEヤフー)のNLP Foundation Devチームから日本語言語モデルが公開されました。(以降LINE LLMと表記します) 36億パラメータの日本語言語モデルを公開しました Instruction Tuningにより対話性能を向上させた3.6B日本語言語モデルを公開します でも「NVIDIAのGPUがないと動かないんでしょ」と、試していない人も多いんではないでしょうか。 そこでこのブログでは、MacでLINE LLMを動かす手順をまとめたいと思います。 Windowsや他のLLMでもほぼ同じ手順で動かせるはずです。 次のような手順で進めます。 pythonインストール ライブラリインストール 1.7Bのサンプルコードを動かす チャットインタフェースで1.7Bを動かす CTranslateによる3.6B llama.cppによる3.6B Pythonインストール

                                      LINE LLMをMacで動かす - きしだのHatena
                                    • DeepSeek-R1 1.58bを試す/ついに実用的なBitNetが!?|shi3z

                                      話題のDeepSeek-R1が1.58bで動くようになったので早速試してみた。 これだと、H100 80GBx2で全てVRAMに乗せて動かすことができる。 継之助なら8台あるので4つ動かせることになる。やったぜ! 「秋葉原を舞台にしたラブストーリーを全て 日本語で書け。12話で完結するようにしろ。先に構成を決め、それから各話を三幕構成で全て書け」というプロンプトを与えてみた。 t$ ./llama.cpp/llama-cli --model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf --cache-type-k q4 _0 --threads 12 -no-cnv --n-gpu-layers 61 --prio 2 --temp 0.6 --ctx-size 18192 -

                                        DeepSeek-R1 1.58bを試す/ついに実用的なBitNetが!?|shi3z
                                      • GMKtec EVO-X2レビュー:Ryzen AI Max+ 395搭載モンスター級ミニPC【Zen5世代16コア】 | ちもろぐ

                                        AMDが作り出した最強格のRyzen APU「Ryzen AI Max+ 395」を搭載した、モンスター級ミニPC「GMKtec EVO-X2」を買ったのでレビューします。 Zen5世代を16コア32スレッド詰め込んだCPUに、グラボ並に性能が良いらしい内蔵GPU「Radeon 8060S」も合体。さらに高速メモリ(LPDDR5X-8000)を64 GBも搭載し、ゲーミングから軽いAIタスクまでこなす性能を目指します。 GMKtec EVO-X2(64 GB + 1 TB) GMKtec / CPU:Ryzen AI Max+ 395(Radeon 8060S)/ メモリ:LPDDR5X-8000 64GB(16x4) / SSD:1TB / OS:Windows 11 Amazonで探す 楽天市場 参考価格 ※2026/1時点 Amazon 楽天市場 2026年時点で、ざっくり23.4万

                                          GMKtec EVO-X2レビュー:Ryzen AI Max+ 395搭載モンスター級ミニPC【Zen5世代16コア】 | ちもろぐ
                                        • 【llama.cpp】誰でもできるgguf変換

                                          tinyLlamaとかを使うときに4bit量子化したいときが誰しも一度はあると思うので、備忘録を書いておく。 llama.cppを導入し、convert.pyを実行、最後にquantize.exeを実行すればOKです。 cmakeの導入 これを参考にcmakeを使えるようにしてみてください llama.cppの導入 llama.cppをクローン git clone https://github.com/ggerganov/llama.cpp cd llama.cpp makeをする。自分はcmakeでやった mkdir build cd build cmake .. cmake --build . --Release cd .. モデルの変換 モデルのダウンロードをする。今回は「yuiseki/tinyllama-ja-wikipedia-1.5T-v0.1」を用いる。 cd models

                                            【llama.cpp】誰でもできるgguf変換
                                          • 中間層をリピートするだけでLLM性能が向上する!? 4090x2でリーダーボードトップになった手法Repeat Your Self|shi3z

                                            この手法は、「LLM神経解剖学」と銘打ち、LLMのレイヤーが実際には何をやっているのか類推しようとする。 Ngによれば、LLMは入力層に近いところでは入力された言語から、LLMが使用する中間表現に変換され、出力層に近いところでは、中間表現から出力表現に変換される。 実際の「思考」は、中間層で行われているというのがNgの主張の中心である。 そこでNgは、グリッドサーチを行って、中間層をどのようにリピートすれば一番性能が上がるかというポイントを探った。これがRYS-XLargeというモデルだ。 RYS-XLargeは、LLMリーダーボードで並いるモデルを追い抜き、一位になった。重要なのは、RYS-XLargeは一切の再学習や事後学習を行っていないという点だ。 LLMリーダーボードでQwen2-72Bを抜いてトップにそして、このリーダーボードの闇の部分になるのだが、Ng自身はリーダーボードでトッ

                                              中間層をリピートするだけでLLM性能が向上する!? 4090x2でリーダーボードトップになった手法Repeat Your Self|shi3z
                                            • DeepSeek R1 Dynamic 1.58-bit の概要|npaka

                                              以下の記事が面白かったので、簡単にまとめました。 ・Run DeepSeek R1 Dynamic 1.58-bit - Unsloth 1. DeepSeek R1 Dynamic 1.58-bit「DeepSeek-R1」は、オープンでありながら、「OpenAI」のo1に匹敵することで話題になっています。「Unsloth」では、より多くのローカルユーザーがこれを実行できるようにする方法を検討し、「DeepSeek-R1 671B」を「131GB」のサイズに量子化することに成功しました。これは、非常に機能的でありながら、元の720GBから80%のサイズ削減です。 「DeepSeek R1」のアーキテクチャを研究することで、特定のレイヤーを高bit (4bitなど) で選択的に量子化し、残り多くの MoEレイヤーを 1.5bitのままにすることに成功しました。すべてのレイヤーを単純に量子化

                                                DeepSeek R1 Dynamic 1.58-bit の概要|npaka
                                              • Qwen3.5 Smallシリーズ完全ガイド — 0.8Bから9Bまで、ローカルLLMの新時代が来た|zephel01

                                                はじめに:なぜ今「小さいモデル」が熱いのか2026年2月、Alibaba CloudのQwenチームがQwen3.5を発表しました。注目を集めたのは397Bパラメータの巨大なフラッグシップモデルだけではありません。同時にリリースされた「Smallシリーズ」——0.8B、2B、4B、9Bの4つの小型モデルが、ローカルLLMの世界に静かな衝撃を与えています。 さらに、量子化の最適化で知られるUnslothがDay Zeroアクセスを得て、これらのモデルのGGUF量子化版を即座に公開。3〜4bit量子化によって、手元のノートPCやコンシューマGPUで実用的に動かせる世界が現実のものになりました。 この記事では、Qwen3.5 Smallシリーズの技術的な革新から、各サイズの具体的なユースケース、そしてUnslothの量子化による実用的なVRAM要件まで、ローカルLLMに関心のあるすべての人に向け

                                                  Qwen3.5 Smallシリーズ完全ガイド — 0.8Bから9Bまで、ローカルLLMの新時代が来た|zephel01
                                                • 1.58-bit版DeepSeek R1の日本語性能評価

                                                  はじめに どんな人向けの記事? ローカル LLM に興味がある方 1.58bit 版 DeepSeek R1 の日本語性能に興味がある方 量子化によってどんな問題のスコアが低下するのか気になる方 背景 私の趣味の一つに、LLM のベンチマーク評価があります。使用しているのは、日本語性能を評価するベンチマークの一つである Shaberi3 ベンチマークです。ここ半年で、100 以上のローカル LLM やプロプライエタリモデルの評価をしてきました。 そして、いつものように新しくリリースされたモデル DeepSeek R1 の評価を実施したところ、とんでもなく高いスコアを叩き出しました。 DeepSeek ショックにより一躍有名になったこのモデルは、実はオープンウェイトで公開されています。しかしながら、パラメータサイズが 671B と非常に大きいため、私の環境(M2 Ultra 128GB)では

                                                    1.58-bit版DeepSeek R1の日本語性能評価
                                                  • Fast and Portable Llama2 Inference on the Heterogeneous Edge

                                                    Fast and Portable Llama2 Inference on the Heterogeneous EdgeNov 09, 2023 • 12 minutes to read The Rust+Wasm stack provides a strong alternative to Python in AI inference. Compared with Python, Rust+Wasm apps could be 1/100 of the size, 100x the speed, and most importantly securely run everywhere at full hardware acceleration without any change to the binary code. Rust is the language of AGI. We cr

                                                      Fast and Portable Llama2 Inference on the Heterogeneous Edge
                                                    • WSL2でDeepSeek-R1-Distill-Qwen-32B-Japaneseをllama.cppで試してみる|noguchi-shoji

                                                      株価を暴落させているDeepSeekの蒸溜モデルをCyberAgentさんが追加学習したモデルであるDeepSeek-R1-Distill-Qwen-32B-Japanese。これをmomongaさんが量子化したモデル、を試してみます。 momongaさん、ありがとうございます。 使用するPCはドスパラさんの「GALLERIA UL9C-R49」。スペックは ・CPU: Intel® Core™ i9-13900HX Processor ・Mem: 64 GB ・GPU: NVIDIA® GeForce RTX™ 4090 Laptop GPU(16GB) ・GPU: NVIDIA® GeForce RTX™ 4090 (24GB) ※外付け ・OS: Ubuntu22.04 on WSL2(Windows 11) です。 1. llama.cppのセットアップllama-cpp-pyth

                                                        WSL2でDeepSeek-R1-Distill-Qwen-32B-Japaneseをllama.cppで試してみる|noguchi-shoji
                                                      • Qwen3-Coder-Next 80Bがコード書けるけど失敗の質が悪すぎてダメな理由をアーキテクチャから見てみる - きしだのHatena

                                                        Qwen3-Coder-Nextが出ていますね。 Qwen3-Coder-Next: Pushing Small Hybrid Models on Agentic Coding Qwen3-Next 80B-A3Bをベースにしたコーディングモデルです。80Bで、Activeパラメータは3Bということで、かなり軽快に動きます。 しかし、元になるQwen3-Nextでは一発のコードはかけるものの やりとりすると弱く、あまりコードは書かせれないなと思っていたので、同じアーキテクチャならちょっと不安が。Qwen3-Nextは線形アテンションを取り入れてるけど、コーディングには向かないんじゃなかろうか、と思っていたので。 そして、その不安は現実に、ということをまとめます。失敗の質が悪い。アーキテクチャについては最後にまとめてます。 確かに、Qwen3-Nextに比べるとかなりコードが書けるようになっ

                                                          Qwen3-Coder-Next 80Bがコード書けるけど失敗の質が悪すぎてダメな理由をアーキテクチャから見てみる - きしだのHatena
                                                        • OpenAIのAPIを使う

                                                          はじめに このページではOpenAIのChat Completions APIについて解説します。OpenAIは新しいResponses APIに移行するつもりのようです(OpenAIのresponses APIを使う 参照)。しかし、Chat Completionsは他社のAPIもお手本にする基本的な方法なので、使ってみて損はしません。 まずこちらで登録してAPIキーを発行してもらいます。サブスクのChatGPTと異なり、料金は従量制で、百万トークンあたり何ドルという具合に課金されます。値段の比較はLLM API比較がわかりやすいと思います。 APIの概要はOpenAIの OpenAI Platform からドキュメンテーション、APIレファレンスなどをご覧ください。APIで送られたデータは学習用に使われることはありません。不正使用の監視のために30日間保持され、特に問題なければ消去され

                                                          • Thonny用のCopilotを作った話、教育用のローカルLLM vibe coding 環境の制作|tokoroten

                                                            ThonnyというPythonの教育用の環境はご存じでしょうか。Python 3.10がインクルードされており、エラーも分かりやすく、インタラクティブなシェルもあり、教育現場をはじめとして幅広い環境で使われています。RasberryPiには標準搭載されていたりします。 とはいえ昨今のプログラミング環境は、VSCodeでGithub Copilot でエージェントをぶん回したり、Clineだったり、Claude Codeだったりといった、AIによるvive codingによって生産性が爆増しています。 しかし、いずれの環境も有償であり、クレジットカードを持っていないと使えないという問題があります。そしてクレジットカードを持ち、自らの意志で自由に使うには18歳以上である必要があります。 そのため、現代の環境では vibe coding を子供たちが自由に行うことができないという問題があります。

                                                              Thonny用のCopilotを作った話、教育用のローカルLLM vibe coding 環境の制作|tokoroten
                                                            • ローカルLLM"Phi-3"をWindows CPUで動かす

                                                              はじめに おれの名前は樋口恭介。Phi-3というMicrosoftから2024年4月23日にリリースされた小規模LLMが、ギリCPUでも動くうえにGPT-3.5よりも精度が高いということで、触ってみることにした。 まずはGoogle Colab上でCPUを選択し、動きを確認したところ、通常モデルでも20分~30分程度で、かなり精度が高い回答が得られ、4bit量子化モデルだと、2分~3分程度で、それなりの出力が得られることがわかった。 そこで、気分がもりあがってきたので、自身のローカルPC(Windows11、GPUなし、メモリ16GB)でも動かしてみることにした。以下はそのときの試行錯誤のメモである(ほぼ趣味の領域の活動だが、業務時間中に行ったので、こうしてちゃんと会社のブログで手順をまとめているというわけだ)。 何も考えずにやるとけっこうハマりポイントが多かった気がするので、ぜひ参考にし

                                                                ローカルLLM"Phi-3"をWindows CPUで動かす
                                                              • 第902回 FirefoxのAIチャットボットをローカルLLMで使用する | gihyo.jp

                                                                諸般の事情で第891回とは替えています。 OSはもちろんUbuntu 24.04.4 LTSです。 ローカルLLMを動作させる LLM 今回使用するRD-RX9060XT-E16GB/DFはVRAMが16GBです。がんばって大きなモデルを使用するのではなく、第891回のようにVRAMに収まるくらいのものにします。 真っ先に考慮すべきはgpt-oss-20bです。しかし、この記事にあるように2025年8月リリースで、今となってはやや古くなっています。gpt-ossを改変したGPT-OSS Swallowにするのも手です。というわけで、両方紹介します。 gpt-oss-20b ggml-org/gpt-oss-20b-GGUFからダウンロードします(直リンク⁠)⁠。 GPT-OSS Swallow 公式には現在のところllama.cppで使える形式では配布されていません。実はそれはgpt-os

                                                                  第902回 FirefoxのAIチャットボットをローカルLLMで使用する | gihyo.jp
                                                                • 非力なパソコンでもLLMを動かしたい!? llama.cppの紹介 | CyberAgent Developers Blog

                                                                  この記事は CyberAgent Developers Advent Calendar 2023 19日目の記事です。 本日はメディア統括本部 Data Science Center の山本が担当します。 サイバーエージェントではAzure OpenAI ServiceやGoogle CloudのVertex AIなど様々なクラウドサービスのプラットフォームを利用したコンテンツ生成のPoC作成やそれを発展させた形での実サービスへの展開を行なっております。 このようなプラットフォームは気軽にやりたいことを試せる点では非常に便利ではあります。 一方、APIリクエストへの即応性やコスト等々の観点で、画像生成や言語生成のモデルを、用意したマシンインスタンスに展開して推論を行いたい状況も存在します。 このとき問題になるのはマシンインスタンスのスペックです。 高性能なGPUが載っていて、CPU、メモリ

                                                                    非力なパソコンでもLLMを動かしたい!? llama.cppの紹介 | CyberAgent Developers Blog
                                                                  • 初心者でもできる!HuggingFaceモデルをGGUF形式に変換しOllamaで使う手順 - uepon日々の備忘録

                                                                    最近、AIのことは一応触ってはいますが、ちっともわからない状況です🫠 先日までOllamaを使用していたのでローカルLLMについてはなんとなく分かってきた様でもありという状況ですが、OllamaはGGUF形式のモデルが使えるとはいえ、すべてのモデルがGUFF形式で公開されているというわけはありません。 リポジトリ内には拡張子が無いモデルのファイルがあって…これ何?って感じです。なんとなく分かってきたのはHuggingFaceにで公開されているモデルはHFって呼ばれるモデルのようですが…。どこかに名言されてるんでしょうか🙇 ということで、HuggingFaceに公開されているHFモデルをなんとかしてOllamaでも使用可能なGGUF形式に変換できないかという内容でチャレンジしてみたいと思います。 (2024.09.11)Ollamaに作成したGGUF形式のモデルをpullする方法のリンク

                                                                      初心者でもできる!HuggingFaceモデルをGGUF形式に変換しOllamaで使う手順 - uepon日々の備忘録
                                                                    • Weave と Elyza-tasks-100 で ローカルLLMを評価する|npaka

                                                                      「Weave」と「Elyza-tasks-100」で ローカルLLMの評価を試したので、まとめました。 1. Weave と Elyza-tasks-100「Weave」は、LLMアプリケーションの記録、実験、評価のためのツールです。「Weights & Biases」が提供する機能の1つになります。「評価関数」と「評価データセット」を用意するだけで、LLMの評価に必要な面倒な処理 (記録・集計など) をすべて肩代わりしてくれます。 「Elyza-tasks-100」はElyzaが提供する指示チューニングモデル用の評価用データセットです。問題固有の採点基準の情報も含まれています。 2. 評価データセットの準備評価データセットの準備手順は、次のとおりです。 (1) 「Elyza-tasks-100」から「test.csv」をダウンロード。 (2) 以下のプロンプトテンプレートを作成。 ・pr

                                                                        Weave と Elyza-tasks-100 で ローカルLLMを評価する|npaka
                                                                      • 日本語のローカルLLM(文章生成AI)をWindowsで動かす - Qiita

                                                                        Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに LLM1は検索エンジンや翻訳ツールのように多くの人達にとって欠かせないサービスになりつつあります。 ところが、ChatGPT、Gemini、ClaudeなどのLLMの代表的なサービスの多くはSaaSとして提供されており、セキュリティ上の懸念から機密性の高い情報をLLMにかけることができないという問題があります。 そのため、LLMを十分に活用しきれていないという組織が多いと思います。特に、機密性が高い情報を扱う組織では、LLMを扱える業務が非常に限られているという状況になっているはずです。 ローカルLLMとは? ローカルLLMと

                                                                          日本語のローカルLLM(文章生成AI)をWindowsで動かす - Qiita
                                                                        • 第872回 百度(Baidu)の新しいMoEモデルを、安価なGPUで動作させる | gihyo.jp

                                                                          使用するグラフィックボードはMSI GeForce RTX™ 3050 LP 6Gと玄人志向 RD-RX6400-E4GB/LPです。 グラフィックボードは高価なものでなくてもいいのですが、CPUに関してはそれなりのものでないと待ち時間が長くなります。今回使用したRyzen 7 5700Xは価格と性能のバランスが取れているように感じました。 SSDは検証機の都合でSATA接続のものにしましたが、大きなモデルはファイルサイズも大きいので、可能な限り高速のSSDにすると読み込み時間が大幅に短縮されるのでおすすめです。 ランタイムの準備 llama.cppのビルドに取りかかる前に、GPUごとのランタイムを準備します。 NVIDIAの場合 NVIDIAのGPUを使用している場合は、プロプライエタリなドライバーのインストールは必須です。インストールされているか確認しましょう(図1⁠)⁠。 図1 「⁠

                                                                            第872回 百度(Baidu)の新しいMoEモデルを、安価なGPUで動作させる | gihyo.jp
                                                                          • 【Cyberagent日本語版】DeepSeek-R1-Japanese-14Bを使ってみた話④【ローカルLLM】|Catapp-Art3D

                                                                            GGUFフォーマットに変換軽量化されていないhuggingfaceフォーマットのままなので、ollamaで利用するにはggufフォーマットに変換する必要があります。 しばらくすれば有志の方がggufフォーマット版を公開すると思われますが、自分で量子化+ggufする場合は、以下の手順を利用します。 (推論等いろいろできるユーティリティです)gguf変換にllama.cppを利用します。 llama.cppのコマンド群をビルドした後に、以下のコマンドを利用します。 # CyberAgent huggingfaceのデータを取得 git clone https://huggingface.co/cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese # bf16のggufフォーマットに変換 python convert_hf_to_gguf.py --o

                                                                              【Cyberagent日本語版】DeepSeek-R1-Japanese-14Bを使ってみた話④【ローカルLLM】|Catapp-Art3D
                                                                            • LightChatAssistant 2x7B を再現する - ローカルLLM自由帳 (Local LLM Diary)

                                                                              前回Chat Vectorについて簡単に予習したので、とりあえず「LightChatAssistant 2x7B」の作成手順を再現してみたいと思います。 作者さんがモデルカードで丁寧に説明してくださっているので、基本的にそれをなぞるだけです。まずはまったく同じモデルを作ってみます。 huggingface.co Chat Vectorによる処理 Google ColabのCPU(ハイメモリ)で試します。3つ分のモデルファイルを扱えるだけのRAM容量さえあればよく、GPU無しで完結するようです。 まずは、Chat Vector処理を行うための依存関係をインストールします。ColabだとTransformersはプリインストールされてます。 # 依存関係のインストール !pip install accelerate protobuf さてChat Vectorは、追加学習したチャットモデルの重

                                                                                LightChatAssistant 2x7B を再現する - ローカルLLM自由帳 (Local LLM Diary)
                                                                              • ローカルPCでLLMを動かす(llama-cpp-python) | InsurTech研究所

                                                                                プレスリリースで「LLMをオープンソースで公開します!」なんてものが流れてくると、自宅のPCで動かしたみたいと思ったりしませんか? 「Amazon SageMakerやGoogle Colabがあるから必要だと思わない」「どうせStable DuffusionのようにVRAM不足で落ちるんでしょ?」、ま、まあそういう面は確かにあるのですが、世の中にはCPUだけで動かしてしまう仕組みもあるのです。CPUだったら自宅PCにも必ず乗っている、つまり、ローカルで動くということです。 ここで紹介する「llama-cpp-python」はその一つです。もちろんCPUだけで動きますが、NVIDIA GeForceのカードが刺さったPC(きっとゲーミングPC)であればもっと快適に動かすオプションもあり、有償版のサービスに手を出す前に、LLMを使って遊びたい方には良いプロダクトだと思います。 llama-c

                                                                                  ローカルPCでLLMを動かす(llama-cpp-python) | InsurTech研究所
                                                                                • 第891回 ミドルレンジのグラフィックボードで生成AI入門 | gihyo.jp

                                                                                  最近マザーボードを入れ替えたことにより、PCIe 5.0にネイティブで対応しました。SSDはグラフィックボードごとに分けています。 なおセキュアブートはオフにしています。 インストールするUbuntuのバージョンは24.04.3 LTSです。 GeForce RTX 5060 Tiに必要なパッケージをインストールする ではGeForce RTX 5060 TiをUbuntuで使えるようにしていきます。とはいえ例として取り上げるのはGeForce RTX 5060 Tiではあるものの、5000シリーズであれば同じ設定で使用できるはずではあります。 筆者は今まで古いGeForceしか使ってこなかったので知らなかったのですが、最新のGeForce 5000シリーズではオープンソース版のカーネルモジュールを使用する必要があります。以前GeForce 3000シリーズでオープンソース版のカーネルモジ

                                                                                    第891回 ミドルレンジのグラフィックボードで生成AI入門 | gihyo.jp