並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 21 件 / 21件

新着順 人気順

text-generation-webuiの検索結果1 - 21 件 / 21件

  • 【令和最新版】何もわからない人向けのローカル LLM 入門

    こんにちは、Saldraです。普段はPictoriaという会社でAIの美少女の錬成に励んでいるエンジニアです。この記事はローカルLLMの概要をつかむことを目的とします。対象読者は以下です。 なんとなく ChatGPT は使ったことある人 ローカル LLM を聞いたことあるけどやったことない人 ローカル LLM とは OpenAIがAPIを公開してから、大規模言語モデル(以降LLMとします)は大きく進化していきました。この進化はOpenAIのAPIだけでなく、ローカルLLMも進化をしています。 ローカルLLMとは「一般向けにファイルとして公開されたモデル」で推論させる遊びです。APIは便利ですが、インターネットの接続が必要であったり、API提供側に依存する問題があります。ローカルLLMは自前で運用ができるため、APIにはないメリットや魅力があります。一方で、環境構築やマシンスペック等、少し始

      【令和最新版】何もわからない人向けのローカル LLM 入門
    • MacでLocalでLLMを走らせるならLM Studioが楽。 - Qiita

      MacでLocal LLM そこそこRAMの大きなMacbook proが手に入ったので、ローカルでのLLM実行を試すことにした。 しかし、MacのGPUを有効化させることのできるローカル環境を整えるまでに、思いのほか苦労したので、メモとして記しておく。 とりあえず、以下の3つの選択肢を試した。 open interpreter text-generation-webui LM Studio で、結局のところ現状まともに動作してくれたのは、LM Studioだけだったのだが、それぞれの所感について示しておく。 1: open interpreter open interpreterそのもの説明については、Qiitaにもいくらでも記事があるのでここでは省略する。 例えば以下の記事など。 https://qiita.com/ot12/items/d2672144b914cb6f252f htt

        MacでLocalでLLMを走らせるならLM Studioが楽。 - Qiita
      • ローカルでLLMの推論を実行するのにOllamaがかわいい

        ローカルでLLMを動かそうとなったら transformers ライブラリ、llama.cpp、text generation webuiなどいくつかの選択肢があると思いますが、どれもめちゃくちゃハードルが高いというほどではないですが、動かすまでの手続が若干いかつい印象があります。 そんな中で Ollama というツールを試してみたところインターフェイスがシンプル、ついでにキャラクターのラマが可愛いのでご紹介していこうと思います。 ちなみにですが、日本語での言及はあまり見かけなかったですが、LangChain が出してるレポートでは OSS モデルを動かすのに使われているものとしては3番目に多く使われており、 出典: LangChain State of AI 2023 GitHub のスター数も現在約33700とかなり人気を集めていそうです。 Ollama で CLI から推論 では早速

          ローカルでLLMの推論を実行するのにOllamaがかわいい
        • local LLMをChatGPT API互換サーバとして使う方法まとめ(2023/10版) - Qiita

          はじめに openai chat completions api(以下ChatGPT API)を使っているが、コストダウンやドメインに特化したfinetuneモデルを使いたいといったニーズでlocal LLMを使いたいというニーズがあると思います。 その場合に、ChatGPT APIを利用する側のアプリケーションコードはそのままで、local LLMをサーバとしてたてて、使用するLLMだけ変えるという実現方法が考えられます。 幾つか良い実現方法があったため、現状、どのようなツールを使用して実現できるか簡単にまとめました。 ところで、偉い人に「うちもChatGPT作って」と言われた時、あなたならどうしますか? (その答えの一つを「おわりに」に書きました) 解説 ChatGPT API互換サーバを作る場合、自分でlocal LLMをラップしてAPIサーバを実装してしまうことも考えられますが、そ

            local LLMをChatGPT API互換サーバとして使う方法まとめ(2023/10版) - Qiita
          • ローカル環境で音声・立ち絵付きのAIと会話できるソフトウェア ez-chat-llm を作りました。

            ※つくよみちゃんイラスト素材:花兎*さん 概要(忙しい人向け) 手軽にローカル LLM (音声・立ち絵付き) と会話できるソフトウェア ez-chat-llm を開発しました。動作の様子は動画 (https://www.nicovideo.jp/watch/sm43196446) からご覧いただけます。 ez-chat-llm は、GitHub のリポジトリ (https://github.com/offtoung/ez-chat-llm) から利用できます。また、Google Colab Pro をお使いの方は、ノートブックから簡単に試せます。 副産物として、Pythonから簡単に利用できる音声合成ライブラリ eztts ができました。なんと、このために音声合成モデルをフルスクラッチで学習するという手の込みようです。 上記の GitHubリポジトリをクローンしたディレクトリに入り、次のよ

              ローカル環境で音声・立ち絵付きのAIと会話できるソフトウェア ez-chat-llm を作りました。
            • 自分の癖にあったファインチューニング用データセットをLLMで作ろう!【Calm2】

              まとめ LLMのファインチューニングにおいて、データセットは重要なものとなりつつある 以前までは人力で作る必要があったが、プロンプトが効く7Bモデル(Calm2-chat)を用いることで、LLMでファインチューニング用データセットを作ることができる データセットを作成しつつ、動的にプロンプトを修正していく手法が相当よかった 導入 LLMのファインチューニングには、大量のデータセットが必要です。良く言われているのは「少なくとも数百~数千はあった方が良い」というものです。翻訳など、皆が使うであろうようなタスクのデータセットは存在する一方で、「女の子の日記をLLMで作りたい」のような、完全に自分の癖に従ったようなデータセットは基本的には存在しません。一から自分で作っても良いのですが、人間の時間とやる気は有限なため、かなり無謀な挑戦と言えるでしょう。 この作業にLLMを用いることで、労力を最小限ま

                自分の癖にあったファインチューニング用データセットをLLMで作ろう!【Calm2】
              • 【ローカルAI】GUIでCodeLlama-34B-Instruct-GGUFを動かしてみる【text-generation-webui】

                【ローカルAI】GUIでCodeLlama-34B-Instruct-GGUFを動かしてみる【text-generation-webui】 概要 ローカルLLMで最近話題の「CodeLlama-34B-Instruct-GGUF」をtext-generation-webuiから動かし、「ローカルLLMでもファインチューニングなしでプロンプト指示できる」感覚を体験してみる。 メイン読者ターゲット ご家庭にGPUがある人(CPUでも良いが遅い) 最適化だったり正しい理解ができてるかは別として、とりあえず動かしたい人 導入から書くので、推論スピードだけ確認したい人は下まですっ飛ばしてください。 導入 text-generation-webuiの導入 以下からclone 自分はpyenv+venv派なので python -m venv .venv でactivate。 あとは基本的にinstall

                  【ローカルAI】GUIでCodeLlama-34B-Instruct-GGUFを動かしてみる【text-generation-webui】
                • text-generation-webui で Rinna・OpenCALM・RWKV を試す|npaka

                  「text-generation-webui」で「Rinna」「OpenCALM」「RWKV」を試したので、まとめました。 ・Windows 11 1. text-generation-webui「text-generation-webui」は、大規模言語モデルを実行するためのWeb UIです。テキスト生成の「AUTOMATIC1111」になることを目標としています。 特徴は、次のとおりです。 ・3つのインターフェイスモード (default, notebook, chat) ・モデルバックエンド (transformers, llama.cpp, AutoGPTQ, GPTQ-for-LLaMa, ExLlama, RWKV, FlexGen) ・ドロップダウンメニューによるモデル切り替え ・LoRA (ロード・アンロード・学習) ・プロンプトテンプレート (Alpaca, Vicuna

                    text-generation-webui で Rinna・OpenCALM・RWKV を試す|npaka
                  • GitHub - oobabooga/text-generation-webui: A Gradio web UI for Large Language Models.

                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                      GitHub - oobabooga/text-generation-webui: A Gradio web UI for Large Language Models.
                    • 【ローカルLLM】大規模言語モデルAIのあまりの遅さについカッとなってノートPCにGPUを追加する

                      「ChatGPT」が世界を席巻するなか、大規模言語モデル(LLM)について相談を受けるようになりました。企業のAI利用ニーズとしてよくある「独自データにより追加学習させたい」という話しをしていると、手元でも試してみたい衝動にかられ、「ファインチューニング」と呼ばれる追加で学習する手法を手元で動かしてみました。 今回、Pythonなどのプログラムを1行たりとも書いていませんので(笑)、「大規模言語モデル(LLM)に興味はあるけどプログラミングはよくわからない」「ごく普通のパソコンしか持ってない」という人の参考になるかと思い、作業メモを書き残します。 いろいろと迷走しますが、最終的に追加投入した費用は「10万円」です。 LLMやファインチューニングなどを試したいが、コードは書きたくない諸兄へ LLMというと多くの解説記事は「Google Colab」などのクラウドサービスを利用して、Pytho

                        【ローカルLLM】大規模言語モデルAIのあまりの遅さについカッとなってノートPCにGPUを追加する
                      • さらにブラッシュアップされたVicuna「StableVicuna-13B」を試す|はまち

                        StableVicunaの概要非商用ライセンス 高いパフォーマンスを実現するために、Vicuna をベースモデルとして活用し、以下の3段階のRLHFパイプラインを採用して訓練しています。 具体的には、3つのデータセットを混合したものを用いて、ベースとなるVicuna モデルをさらに教師付き微調整(SFT)により訓練しています: OpenAssistant Conversations Dataset (OASST1)は、人間が生成し、人間が注釈を付けたアシスタントスタイルの会話コーパスで、35種類の言語、66,497本の会話ツリーに分散した161,443件のメッセージから構成 GPT4All Prompt Generations、GPT-3.5 Turboで生成された437,605個のプロンプトとレスポンスのデータセット OpenAIのtext-davinci-003エンジンで生成された52

                          さらにブラッシュアップされたVicuna「StableVicuna-13B」を試す|はまち
                        • A brief history of LLaMA models - AGI Sphere

                          LLaMA (Large Language Model Meta AI) is a language model released by Meta (Facebook). It is Meta’s answer to OpenAI’s GPT models. The LLaMA base model was released in February 2023. Now we have seen a handful of new fine-tuned LLaMA models released. It is literally a brief history, but a lot has happened for sure. So let’s do a brief review. I will cover some developments in models and briefly tou

                            A brief history of LLaMA models - AGI Sphere
                          • なんJLLM部 避難所

                            0001名無しさん@ピンキー 転載ダメ (ワッチョイ e249-iArR)2023/12/17(日) 21:48:59.66ID:???0 !extend::vvvvv:1000:512 !extend::vvvvv:1000:512 AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2以降 本スレ なんJLLM部 ★6 https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/ VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured 0002名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 21:50:26.11ID:???0 初心

                            • airoboros: GPT-4で作成した学習データで微調整した大規模言語モデル(ほぼgpt-3.5-turbo)|はまち

                              Self-Instructの手法でGPT-4を使用して生成された学習データを使って、ファインチューニングされたLlaMA-13b/7bモデルが公表されていました。 モデルの概要Self-Instructの手法でgpt-4、またはgpt-3.5-turboを用いて、人間が生成したシードを含まず学習データセットを作成(OpenAIライセンスの対象) airoboros-gpt4 airoboros-gpt3.5-turbo gpt-4で作成されたトレーニングデータで、LlaMa-13b および7bをファインチューニング モデルの利用は、研究用途にのみに限定 学習データには、意図的に脱獄スクリプトを使用して生成されたデータも含む(いくつかの不適切なプロンプトのみ手動で削除) ファインチューニングは、FastChatモジュールを用いて実施。13bモデルはA100 80GB x8  約40時間で完了

                                airoboros: GPT-4で作成した学習データで微調整した大規模言語モデル(ほぼgpt-3.5-turbo)|はまち
                              • karakuri-lm-70b-chatをOpenAI互換のローカルサーバとして動かしてみた - Qiita

                                はじめに karakuri-lm-70b-chatの4bit量子版ggufをローカルPCで動かしてみた時のメモです。 json format出力が出来たり、少し複雑なsystem promptも効いてくれて良いです。 KARAKURI LM 70B Chat v0.1 とは Llama 2 70Bベースの継続事前学習&finetuneモデルで、現時点(2024/2/2)でMT-Bench-jpベンチマークにおいて日本語のオープンモデルの中で最高性能モデル。 デモサイトも用意されていて、簡単にお試しすることもできます。 KARAKURI LM を試す。すごい優秀。json fromat出力指定が通る。複雑めなsystem promptもしっかり効く。 (json formatしっかり返せるようになるとagent動かせるようになるですよ。とはいえ70bはうちのPCでは動かないけど...シクシク

                                  karakuri-lm-70b-chatをOpenAI互換のローカルサーバとして動かしてみた - Qiita
                                • text-generation-webui で RinnaのLoRAファインチューニングを試す|npaka

                                  「text-generation-webui」で「Rinna」のLoRAファインチューニングを試したので、まとめました。 前回 LoRAファインチューニングを試すLoRAファインチューニングの手順は、次のとおりです。 (1) 前々回と同じ手順で、Rinnaと会話できるように設定。 今回は、Rinnaのベースモデル (rinna/japanese-gpt-neox-3.6b) を使いました。 (2) 「Modelタブ」で「load-in-8bit」をチェックして、Rinnaモデルを再読み込み。 (3) 「あかねと〜くデータセット」(dataset_plain.txt) をダウンロードして「training/datasets」フォルダに配置。 今回は、EOSのないプレーンの方を使いました。 (4) 「Training タブ」で「Name」にLoRAモデル名を指定し、「Override Exis

                                    text-generation-webui で RinnaのLoRAファインチューニングを試す|npaka
                                  • GGMLからGGUFへ:llama.cppのファイルフォーマット変更|Baku

                                    RedditのローカルLLM板に以下の投稿があった。週明けに「llama.cpp」で使われているGGMLファイルが「GGUF」という新フォーマットに変更されるとのこと。 フォーマット変更の要点GGUFは、GGMLよりも拡張性の高いファイルフォーマット。「.bin」から「.gguf」になる。 これにより、Llama以外の言語モデル(falcon, rwkv, bloom, etc.)がllama.cppでサポートできるようになる。サポートするモデルは段階的に増える予定。 その他、プロンプトフォーマットをGGUF内に設定しておけるようなったり、rope-freq-baseやgqaなどの一部パラメータが不要になる予定。 破壊的変更であり、既存のggmlモデルは「GGUF #2398」のマージ後は使えなくなる(有志がGGML>GGUFの変換スクリプトを作成中)。 マージは週明け(現地8月21日)を

                                      GGMLからGGUFへ:llama.cppのファイルフォーマット変更|Baku
                                    • Llama 2 を text-generation-webui で動かす

                                      tl;dr 2023/7/19 に公開された Llama 2 を試してみたよ text-generation-webui の上で Llama 2 をローカル環境(M2 Mac)で動かしたよ 遅過ぎて GPU がほしいとなったよ →Google Colab 版をお勧めするよ 結果的に実用的ではなかったけれど、途中過程は参考になるかもだよ Llama 2 とは Meta の大規模言語モデル。無料で利用可能で、商用利用も可。パラメータ数は 7B、13B、70B。公開データセットから学習されており、個人データは含まれていません。 Llama 2-Chat は Llama 2 をベースに RLHF を施したモデル。既存のオープンソースのモデルを上回る性能を示し、一部の指標ではクローズドなモデルと匹敵する性能。 text-generation-webui とは ブラウザで使える文章生成 AI 用の U

                                        Llama 2 を text-generation-webui で動かす
                                      • Google Colab で Text Generation WebUI を試す|npaka

                                        「Google Colab」で「Text Generation WebUI」を試したので、まとめました。 1. Text Generation WebUI「Text Generation WebUI」は、LLM用のGradio WebUIです。テキスト生成における「Stable Diffusion WebUI」になることを目標に開発されました。 主な特徴は、次のとおりです。 ・3つのインターフェイスモード ・default ・notebook ・chat ・モデルの切り替え ・モデルバックエンドの切り替え ・Transformers ・llama.cpp (llama-cpp-python経由) ・ExLlama ・ExLlamaV2 ・AutoGPTQ ・AutoAWQ ・GPTQ-for-LLaMa ・CTransformers ・QuIP# ・チャットテンプレートの切り替え ・Lla

                                          Google Colab で Text Generation WebUI を試す|npaka
                                        • text-generation-webui の LoRAファインチューニングのパラメータ調整ガイド|npaka

                                          以下の記事で紹介されている、LoRAファインチューニングのパラメータ調整ガイドがわかりやすかったので、簡単にまとめました。 ・Training Your Own LoRAs 前回 1. VRAMはじめに、「VRAM」を考える必要があります。 ・一般に、デフォルトパラメータを使用した学習でのVRAM使用量は、デフォルト設定で (1000以上のコンテキストトークンを含む) テキストを生成する時とほぼ同じになります。つまり、テキストを生成できれば、LoRAを学習できます。 ・VRAMに余裕がある場合は、より高い「batch size」を設定すると、より多くのVRAMが使用され、その代わりに学習の質が向上します。 ・データが大きい場合は、「cutoff length」を高く設定すると効果的ですが、VRAMが大幅に消費されます。余裕がある場合は、「batch size」を「1」に設定し、「cutof

                                            text-generation-webui の LoRAファインチューニングのパラメータ調整ガイド|npaka
                                          • Stability AIの日本語画像言語モデルをWindows+RTX 4060 Ti 16GBで試す - きしだのHatena

                                            Stability AIから日本語画像モデルが出ていたので試してみました。 Windows + RTX 4060 Ti 16GBです。 Stability AIのリリースはこちら 日本語画像言語モデル「Japanese InstructBLIP Alpha」をリリースしました — Stability AI Japan モデルはこれ。 stabilityai/japanese-instructblip-alpha · Hugging Face 動かすとこんな感じで、5秒くらいで返答が生成されていました。結構ちゃんと画像を説明しています。 Stabitili AIの画像対話モデル、結構的確に答えてくれる。最後に無応答があったけど。 8bitで読み込んで応答にRTX4060Tiで5秒程度。 pic.twitter.com/4hDGFDWFl4— きしだൠ(K1S) (@kis) 2023年8月2

                                              Stability AIの日本語画像言語モデルをWindows+RTX 4060 Ti 16GBで試す - きしだのHatena
                                            1