サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GWの過ごし方
note.com/catap_art3d
今回は、総合ではなく、特定用途のAIモデルを紹介したいと思います。 翻訳モデル1位:TranslateGemma 12B翻訳に特化したGoogle translategemmaは、12BモデルでもGemma3 27Bの翻訳性能を超えるというものです。 ※ 4B版もありますが、VRAMに余裕があるなら12B版が最もバランスが良いと思います。 # ダウンロード ollama pull translategemma:12B モデル仕様の最大コンテキストサイズは128k(約13万日本語文字)です。12GB/16GB VRAMのGPUでも、32〜64k(約3〜6万日本語文字)程度であれば問題なく利用できます。 ※ VRAM 16GBでは、少し小さくする必要があると思います # 最大128kコンテキストの場合 NAME ID SIZE PROCESSOR CONTEXT UNTIL translate
はじめに2026年現在、筆者が実際に利用しているオープンでローカルで利用可能なLLM(大規模言語モデル)を紹介します。 ※ 例によってすぐ古くなるので、定期的に更新しているシリーズ記事です ローカルLLMの基礎知識大規模言語モデル(Large Language Model)とはChatGPTなどのAIと対話できるAIモデルの事をLLMと言いますが、それら大手企業のクラウドLLMをパソコンで動かす事はできません。なぜなら単純に大きすぎるからです。そして、LLMが登場してから現在に至るまで順調にスケーリング・巨大化し続けています。 ChatGPTにきいてみた必要なVRAMChatGPTの計算がおかしい場所もありましたが、VRAMが6000GB〜20,000GB必要という世界は、ゲーミングPCでは無理だというのがわかると思います。そして限界まで買占めする必要があることも 2026年の一般的なゲー
はじめにZ-Image-Turboが公開されたときに、baseとeditモデルの公開も予告されていましたが、やっとbaseモデルが公開されました。 baseモデルは、名前が意味するように、基本モデルとして、カスタムモデル等の開発者向けの側面が大きく、現状ではシンプルな画像生成を行う場合に、あまり使いどころがないかもしれません。 READMEで解説されているように、一般に蒸留モデル(turbo)の方が画質がよくなります。生成AIの「蒸留」はメタファーとして利用されているように、temperatureを上げ、ランダム性を上げ、上澄みの綺麗な濃縮物を集めたものです。 つまり、蒸留モデルは純度高く綺麗なものしか生成できないモデルなので、量子化のように画質劣化を犠牲にしてファイルサイズ圧縮や生成速度を上げるというものではありません。蒸留は汎用を犠牲にして特定用途に特化したものと言えます。 上記の公式
はじめにBlack forest Labsの最新画像生成AIモデルFLUX.2-kleinシリーズが利用可能になったので利用してみました。 9Bと4Bモデルがリリースされています。ライセンスは、 9B:FLUX Non-Commercial License 4B:Apache 2.0 になっています。「FLUX Non-Commercial License v2.1」の確認をLLMでチェックする限りでは、新しい規制に対応したぐらいで、過去のものと大きく変更がないのではと思います。 一気に種類が増えたのでよく解らなくなりますが、チューニングやControlNetなどの複雑な利用行わない通常生成のみのユーザーの場合は、【base】がついていない蒸留モデルで良いと思います つまり、9Bを利用する場合は、「flux-2-klein-9b(-fp8).safetensors」 4Bを利用する場合は、
はじめに以前の記事では、Qwen-Image-Edit 2509とFLUX.1 Kontextを(互いに弱点を補う)混ぜるやり方で画像の高画質化を行いました。 最新の2511版が出たので、このワークフローに試しに2509と入れ替えてみたのですが、あまり良い結果は得られませんでした。 2511版は指示に忠実・従いやすいというメリットはありますが、写実的なものに弱いようで、のっぺり感(plastic look)が強調されるようです。 しかし、2511版をベースにしたカスタムモデルであるQwen-Image-Edit-Rapid-AIO(例ではNSFW版)の最新版を利用すると、 人物画像の高画質化において、非常に良い結果が得られました。 高画質化テスト用の画像を作成する解像度を下げ、圧縮率を上げ、故意に大きく劣化させた画像を作ります。リアルな写真での性能を試したいので、AI生成ではない(と思われ
はじめにnunchaku版のZ-Image-Turboモデルは、少し前から公開されていましたが、ComfyUIのローダーがないため、ComfyUI上で利用できませんでした。 昨日、nunchaku・ComfyUI-nunchakuの各バージョン1.10が公開されて、ComfyUI上で利用可能になったので試してみました。 筆者環境RTX 5060ti(fp4対応)用のモデルをダウンロードします。 svdq-fp4_r32-z-image-turbo.safetensors導入本来は、ComfyUI上で一度update_nodeで「RUN」し、ブラウザの再読込みをすれば最新nunchakuモジュールのバージョンの「1.1.0」が選択可能になるという寸法だったのですが、筆者環境では見事に失敗し、pipパッケージのメタデータまで壊れてしまいました。。(たぶんおま環だと思うのですが) 公式が提供して
単純な生成画像の品質では、多様性とプロンプト追従性の高い【FLUX.2-dev + ZIT】が最強だと思います。 しかし、最大の弱点は生成時間です。12GB VRAMでは最小の量子化モデルを利用しても、テキストエンコーダーがGPU動作しません。全体で10分近く必要です。RTX 5060ti 16GBでも数分の生成時間が必要です。 手法は単純で、FLUX.2-devで生成した後に、Z-Image Turboでアップスケール(またはリファイン)するだけです。 FLUX.2-devだけでもそれなりに高画質ですが、FLUX.2の下位バージョンでもあるので、細部は荒くAIアーティファクトも多く出してしまいます。Z-Imageでリファイン(img2img)すると、それらを修正できます。 生成したもの海の見える江戸時代の人々と風景(←をメタプロンプトに入れた)海の見える大正時代の人々と風景イタリアのコロ
はじめに今年最後のローカル画像生成AIベストは、FLUX.2ではなくZ-imageなのかもしれません。 FLUX.2はとにかく重く遅いのです。テキストエンコーダー(mistral)も16GB VRAMではGPUから溢れる事も多く、CPU処理にしないと安定しません。単純なプロンプト理解力は少しQwen-Imageを上回るかもしれませんが、生成時間は数倍必要です。 そしてクラウドAIよりは弱いとはいえ、中華製AIに比べると検閲が強すぎます。 一方で、Qwen-Imageのプロンプト追従性と日本の情景描画性能と、Z-imageの写実的な性能を合わせれば、(写実的なものに限って言えば)GoogleのImagen4レベル同等か、それ以上の性能なのではと思います。さらに検閲はなしと言っても良いレベルでしょう ※ KritaのAIプラグインKrita-ai-diffusionでも実験対応ですがZ-Ima
はじめにこの記事では、オープンソースで開発されているフリーのペイントソフトKrita上で画像生成AIを利用できるプラグイン「Krita-ai-diffusion(Generative AI for Krita)」の使い方を入門として解説した記事です。 AI画像生成だけでなく、ペイントソフトKritaも含めて初めて利用する方を想定したものになります。 基本的な事必要な環境すべてローカルで実行する事を想定します。ローカルパソコンで利用するには、ペイントソフトKrita本体と画像生成AIソフトウェア(ComfyUI)を同時に起動させる必要があります。Kritaはそれほどリソースを消費しませんが、画像生成AIは大量のシステムメモリとGPUメモリを要求します。一般に、NVIDIA製GPUを搭載したミドルクラス以上のゲーミングPCが必要になります。 具体的には、Geforce RTXシリーズVRAM8
前回は、確かに指定したポーズに「似た」ものになりましたが、ポーズ(ブロックされがちなヤンキー座り)そのものではありません。 クオリティを上げるべく、さらに修正していきます。 Gemini(Nano-banana)で可能か確認すでに目的のポーズに近く大きく変更する必要がないので、クラウドAIで微調整できるか確認します。 前回作成した画像を読み込みブロック発動です。「ヤンキー座り」でなければ通りますつまり、微調整でも使い物になりません。 Qwen-Image-Edit(2509)でインペイントインペイント手法を利用します。 Qwen-Image-Editのクセ(デメリット)は、全体を拡大変更してしまう事です。そこで、変更すべき範囲だけを限定する手法を利用しますが、FLUX.1 Kontextと異なり、複雑なものは上手く境界を扱えません。 この境界問題を解決するためにLanPaintを利用します
はじめにローカル環境で編集AIを実行できるQwen-Image-Editの最新版(25年9月版)を試した前回のつづきです。 ワークフローsvdq-int4_r32-qwen-image-edit-2509-lightningv2.0-4steps.safetensorsを利用しています(RTX 3060 12GB) 前回は、nunchakuがネガティブ無視するものだと思い、適当に繋げていたのが良くなかったのかもしれません。今回は非常に上手くいきました。 プロンプト:- image1の日本の女子高生をリアルなおもちゃのフィギュア化して、image2のテーブルの上に飾る - フィギュアのポーズはimage1のものにする - フィギュアは透明なガラスケースの中にあり、隣に商品パッケージが商品名と共に置かれている4stepなので、動作も軽快です。上記はRTX 3060 12GBでの動作ですが、nu
今回は、二枚の画像(始状態、終状態)を利用した動画生成を試してみます。高速化に関しては前回の①と②のものを利用します。 導入前回と同様に、ComfyUIのプリイン・テンプレートを利用します。 Wan 2.2 14B First-Last Frame to Videoテンプレートを利用するRTX 3060ではあまり効果はありませんでしたが、次のComyUIの起動オプション(sageattention2の導入が必要)を入れておきます。ただし、40xxや50xxでは大きな効果があると予想されます。 --use-sage-attention同様に、あまり効果のない(FP16 accumulation)用のオプションです。 --fastそして、絶大な効果があった、GGUFモデルと、ステップ数削減のLoRAを導入します。※ 各種モデル・ダウンロード先等は②を参照ください。 ステップ数の削減も忘れずに。
はじめに筆者環境RTX 3060 12GBで利用しているローカルLLMランキングを筆者の独断と偏見でトップ3を勝手に選びました。要するに、筆者が単に頻繁に使っているモデルです。 ※ 12GBのGPUメモリで動作困難なものは、より高性能であっても除外しています。独断と偏見なので、筆者の不備によって本来の性能を出せず「ダメだ」と感じてしまったモデルも除外されていますので悪しからず。 ※ 利用環境は(Ollama)Open WebUIです ランキングランキング前に、LLMスペックを比較する時に利用する専門用語の簡単な説明です ■ architecture AIモデルのアーキテクチャです。たとえば、日本ではELYZAやDeepSeekR1の蒸留モデルが有名ですが、それらは新しいアーキテクチャではなく、llama2やqwen2アーキテクチャがベースモデルになっています。それらを追加学習・ファインチュ
はじめにこの記事では、Linux Mint 22 Cinnamonを利用して、さまざまな生成AIを利用可能にするLinuxサーバーの構築方法を【初級&中級者向けに】解説したいと思います。 クラウドを使わずにローカルでAI生成を行いたいと考えているものの、現在使用しているパソコンのGPU性能が不足しているため新しいPCの購入を検討している方も多いと思います。しかしパソコン環境を変えたくない場合や、仕事に影響が出ることを懸念して、不要なソフトウェアの導入を避けたいという方もいると思います。そのような場合に、専用の生成AIサーバーの構築は最適です。 物理的に分離した専用サーバーでかつ(クラウドではなく)所有するパソコンでAI生成する事で、様々な利点を享受できます。 AIソフトウェアの性質上、どうしても多数のソフトウェアが自動で導入されます。悪意はなくとも有害なものバグがあるもの、PC環境を破壊す
はじめにOllamaで大規模言語モデルQwen3が利用可能になったので利用してみました。日本語も公式対応しています。 ただし、筆者の主力GPUであるRTX 3060はFramepack「叡智」版のテストに利用しているので、GTX 1660ti+1650上でのQwen3 8B版の動作確認です。 上記ページをQwen3 8B版で日本語要約しました。 Thought for 22 seconds このドキュメントは、Qwenチームが最新の大規模言語モデル「Qwen3」を発表した内容をまとめています。以下に要約します: 【モデル概要】 Qwen3は、2350億パラメータの大規模モデル(Qwen3-235B-A22B)と、300億パラメータのMoEモデル(Qwen3-30B-A3B)を含むファミリーです。また、4B、8B、14B、32Bなど、さまざまなサイズの密集型モデルも提供され、すべてApach
はじめに筆者が利用しているローカルLLMを紹介します。定量的な評価は行っていないので、筆者が日常で利用している条件下での独断と偏見です。 以前の記事のアップデート版です。(古い)Visionモデルは以前の方が詳しいです。 筆者のローカルAI環境: CPU:Ryzen5 3600 OS:Windows 11 Pro(24H2) システムメモリ:64GB GPU:NVIDIA RTX 3060 12GB ※ RTX 3060(12GB)で実用的に利用できる上限は、およそ、7Bモデルで約32Kトークン、14Bモデルで約12Kトークンになります。 Ollamaの環境変数として以下を設定しています。 OLLAMA_FLASH_ATTENTIONとOLLAMA_KV_CAHE_TYPEを設定する事で、(性能低下はありますが)利用できるnum_ctxサイズを大幅に上げる事ができます。 OLLAMA_KE
GGUFフォーマットに変換軽量化されていないhuggingfaceフォーマットのままなので、ollamaで利用するにはggufフォーマットに変換する必要があります。 しばらくすれば有志の方がggufフォーマット版を公開すると思われますが、自分で量子化+ggufする場合は、以下の手順を利用します。 (推論等いろいろできるユーティリティです)gguf変換にllama.cppを利用します。 llama.cppのコマンド群をビルドした後に、以下のコマンドを利用します。 # CyberAgent huggingfaceのデータを取得 git clone https://huggingface.co/cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese # bf16のggufフォーマットに変換 python convert_hf_to_gguf.py --o
はじめにリモートデスクトップ(Remote Desktop)とは、ネットワークを介して別の場所にあるWindowsコンピュータにリモートで接続して、そのコンピュータをまるで目の前にあるかのように操作できる機能です。サーバー側の機能はWindowsのProfessionalエディション以上で利用できます。※ Homeエディションでは基本的に利用できません リモートデスクトップを利用する場合、通常はレンタルサーバーや会社or自宅のパソコンを遠隔操作する用途だと思いますが、この記事では隣に置いてあるWindowsをリモートデスクトップでLinuxから利用します。 筆者はLinux機がメイン・パソコンなので、Windowsパソコン(のディスプレイとキーボード&マウス)を作業机の端にサブ・パソコンとして置いています。 ミニマリストではありませんが、(自分でコントロールできない)企業強制のフレームワー
はじめに変化の激しいLLM(大規模言語モデル)分野ですが、最近は新モデルの発表が落ち着いてきたように思います。それだけローカルでも実用的なものが出揃ったという事ではないでしょうか。 本記事では、2024年11月現在の筆者が実際に利用しているローカルPCで利用可能なLLMを紹介したいと思います。 ※ ただし、定量的な評価ではなく、筆者の利用経験の主観と偏見によるLLM評価です。LLMは動作環境や設定いかんで性能は大きく振れますので。 ※ ローカルでLLMを動作させる場合は、画像生成AI用途と同程度のPCスペックが必要になります。いわゆる(ミドルクラス以上の)ゲーミングPCが必要になります。 LLM(Large Language Model:汎用用途)日本語でのちょっとした調べものや、文章の整理・整形する用途に利用しています。 ① Mistral-Nemo-Japanese-Instruct-
Abstract We report the development of Ruri, a series of Japanese general text embedding models. While the development of general-purpose text embedding models in English and multilingual contexts has been active in recent years, model development in Japanese remains insufficient. The primary reasons for this are the lack of datasets and the absence of necessary expertise. In this report, we provid
想定している読者【難しい内容ではなく入門者向けですが、どちらかと言うと、ガッツリ理解したい人向けです】 ※ 単に Stable Diffusion を動かしたいだけなら、現状は StabilityMatrix が最適です。 ※ github に公開されているAIソフトウェアを、誰かの解説なしに利用したい人向けです。 【ローカルでさまざまな画像系AIソフトウェア利用を本格的にはじめたいと考えている人】 【Anaconda で Python パッケージ管理をはじめて行う人】 ※ 非開発者・非 Python プログラマ向けの内容です。利用者側の視点で記述しています。 【Windows コマンドプロンプトを利用した事がある人】 ※ すべて Windows コマンドプロンプトで説明します。Powershell は利用しません。 【以下ソフトウェアの同時インストール&保守したいと考えている人】 ▢ A
【追記:2024年11月25日】リアルタイム会話の設定方法を追記しました。日本語に対応した高性能のSTT(Speech to Text)・TTS(Text to Speech)の設定方法です。 【追記:2024年8月31日】Apache Tikaの導入方法を追記しました。日本語PDFのRAG利用に強くなります。 はじめに本記事は、ローカルパソコン環境でLLM(Large Language Model)を利用できるGUIフロントエンド (Ollama) Open WebUI のインストール方法や使い方を、LLMローカル利用が初めての方を想定して丁寧に解説します。 ※ 画像生成AIと同じで、ローカルでAIを動作させるには、ゲーミングPCクラスのパソコンが必要になります。具体的には、16GB以上のシステムメモリと、8GB以上のNVIDIA製のGPUメモリが必要になります。 (ollama) Op
このページを最初にブックマークしてみませんか?
『Catapp-Art3D|note』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く