並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 109件

新着順 人気順

github com huggingface transformers gitの検索結果1 - 40 件 / 109件

  • OpenAI GPT-OSS 20Bモデルのファインチューニング完全ガイド

    🚀 はじめに このチュートリアルでは、OpenAIの最新モデルGPT-OSS 20BをGoogle Colab L4 GPU(22GB VRAM)でファインチューニングする方法を解説します。UnslothライブラリとLoRAを使用することで、効率的にモデルを訓練できます。 <div class="align-center"> <a href="https://unsloth.ai/"><img src="https://github.com/unslothai/unsloth/raw/main/images/unsloth new logo.png" width="115"></a> <a href="https://discord.gg/unsloth"><img src="https://github.com/unslothai/unsloth/raw/main/images/Dis

      OpenAI GPT-OSS 20Bモデルのファインチューニング完全ガイド
    • ローカルで動く大規模言語モデル(Rinna-3.6B)を使ってあなただけのAIパートナーを作ろう - Qiita

      はじめに はじめまして。株式会社ずんだもんのアルバイトエンジニアのinadaです。 今日は誰でも作れるずんだもんと題してローカルPCにずんだもんAIを作ります。この記事はそのチュートリアル記事です。 (誰でもと書いてますが、RTX 3060(12G)搭載以上のPC推奨です。CPUマシンでも出来る部分はありますが非推奨です。RTX 3060(12G)のグラボは5万ぐらいで買えるので持ってなければ買っちゃいましょう。) 対象読者/記事の範囲 ローカルPCで動かせる大規模言語モデルを、学習用のデータの用意から、学習、動かすところまで一通りどんなものか、お試ししてみたい人。 自分だけの世界にただ一人だけのうちの子、またはパートナー(うちの嫁)を作り育てたい。そんな沼にはまりたい、興味がある人。 AIの仕組みや用語は当記事では解説しません。AIの用語(モデル, loss, epoch, checkp

        ローカルで動く大規模言語モデル(Rinna-3.6B)を使ってあなただけのAIパートナーを作ろう - Qiita
      • 大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama

        はじめに以下のオープンなプロジェクトの一環で、大規模言語モデルをフルスクラッチで作る練習をします。24年3月現在、協力者も募集中です。 リポジトリ当該プロジェクトの標準コードが公開※されたので、それを走らせてみます。 ※24/3/5時点で、まだレポジトリ内に、工事中の箇所が多々、あります。 このリポ上では、事前学習ー事後学習ー評価まで、一気通貫(?)したパイプラインが提供されています※。 0. 環境構築プロジェクトの本番環境はクラウドですが、今回は手持ちのubuntuを使います。 Dockerはお手軽な一方で、スパコン上で使うと、どうやら速度が落ちるらしいとの噂を聞いたので、condaで作ります(とはいえ、pipしか使わないので、pyenvでもいけると思います)。 必要なマシン適当なlinux: 例えばUbuntu 22.04.3 LTS GPU: 20 GBくらいは欲しいかも? ディスク

          大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama
        • LLMに渡す前に関連しない文を削除するモデル OpenProvence を公開 - A Day in the Life

          昨今、LLMが回答するための「良い知識」を作るために、検索を行い情報を集め、さらに足りない知識を補うために多方面のさまざまな検索クエリを作り検索結果から必要な情報だけを抽出したり…といったことを、再起的に行っています。AI Agent、DeepResearch、Context Engineering と 2025年の流行の技術では、このような検索を裏側で行うことがしばしばあり、筋が良い情報をいかに検索で取得できるかが鍵になることも多いでしょう。 しかしながら、大量に検索を行うと「検索結果」の情報も同時に増加していきます。そのため、本当に必要な情報の抽出をLLMが間違えたり、ハルシネーションが起きたり、入力情報の増加により処理が遅くなったり、LLM利用費用が増加したりと、大量の検索が難しかったりもします。 そこで、検索結果をLLMに渡す前に、関連しない情報は削除しちゃおう、ついでに関連度スコ

            LLMに渡す前に関連しない文を削除するモデル OpenProvence を公開 - A Day in the Life
          • AutoTrainで文章要約 - Qiita

            AutoTrain🚂🚂🚂とは ノーコードでテキスト分類や要約などがstate-of-the-artできるサービスです。AutoNLPだとググラビリティが低かったので名称が変わったのだと思います。 データ準備 ハウツー系の文章を要約しようと思います。 ハウツー系の文章(inputs)とその要約(targets)があります。 https://www.wikihow.jp/蛇に噛まれた時の対処 要約する文と要約文のcsv/jsonlファイルを作成します。 ファイル作成スクリプトはColabにあります。 プロジェクトの作成 Summarization と Japaneseを選択し、プロジェクトを作成します。 csvファイルをアップロード jsonlでもアップロードできます。 今回はjsonlファイルをドラッグ・アンド・ドロップし、text:srcとtarget:tgtカラムを選択し、プロジェ

              AutoTrainで文章要約 - Qiita
            • 作って遊ぼう!LLMを搭載した君だけのV&Lモデル!

              はじめに TuringのBrain Research teamで頑張ってる井ノ上です。(Twitter: いのいち) Turingは完全自動運転の開発を目指しており、その実現のためには賢い頭が必要だと考えています。その方法の一つとして、近年の大規模言語モデル(LLM)に見られるような文脈理解力をうまく取り入れられないかと考えており、LLMとVisionの情報をかけ合わせたモデルに注目して研究を行っています。自動運転とVision and languageモデルについては、ぜひこちらの記事を読んでみてください。 今回の記事は2023年7月に開催されたABCI LLMハッカソンで取り組んだときに開発していたGIT-LLMというモデルの開発について解説する記事となっています。途中のコードの解説部分などは少し退屈に感じるかもしれませんので、その場合はぜひ結果のパートだけでも見てみてください。いろい

                作って遊ぼう!LLMを搭載した君だけのV&Lモデル!
              • gpt-oss の使い方|npaka

                以下の記事が面白かったので、簡単にまとめました。 ・Welcome GPT OSS, the new open-source model family from OpenAI! 1. gpt-oss「gpt-oss」は、OpenAIによる待望のオープンウェイトリリースであり、強力なReasoning、エージェントタスク、そして多様な開発者ユースケース向けに設計されています。117Bのパラメータを持つ大規模モデル「gpt-oss-120b」と、21Bのパラメータを持つ小規模モデル「gpt-oss-20b」の2つのモデルで構成されています。どちらも「MoE」(Mixture-of-Experts) であり、MXFP4を使用することで、リソース使用量を抑えながら高速推論を実現します。大規模モデルは単一のH100 GPUに収まり、小規模モデルは16GBのメモリ内で動作し、コンシューマーハードウェア

                  gpt-oss の使い方|npaka
                • Unsloth で始める gpt-oss のファインチューニング

                  (上記、Github の README.md を一部日本語に翻訳して引用) Unsloth の良い点としては、学習の高速さやVRAM消費量が小さいことに加え、学習の効率化において近似計算を一切使用していないことから、精度低下がゼロと自信を持って書かれていることや、Huggingface において様々な動的量子化/GGUFモデル等を公開していることが挙げられます。 また、Unsloth を用いてLLMのダウンロードを行うと、謎の仕組みで高速に進みます。(Unsloth: Fast downloading is enabled と出てくるので多分早くなっている) インストールは以下のコマンドで行えます。 余談ですが、Unsloth の公式ドキュメントに書かれた LLM のファインチューニングガイド、どのモデルを使うべきか?、LoRA のハイパラのガイド は情報が綺麗にまとまっていて個人的にかな

                    Unsloth で始める gpt-oss のファインチューニング
                  • Google Colab で PEFT による大規模言語モデルのファインチューニングを試す|npaka

                    「Google Colab」で 「PEFT」による大規模言語モデルのファインチューニングを試したので、まとめました。 1. PEFT「PEFT」(Parameter-Efficient Fine-Tuning)は、モデルの全体のファインチューニングなしに、事前学習済みの言語モデルをさまざまな下流タスクに適応させることができるパッケージです。 大規模言語モデルのファインチューニングは、多くの場合、法外なコストがかかりますが、「PEFT」は少数のパラメータのみをファインチューニングするため、計算コストとストレージ コストが大幅に削減でき、さらには、完全なファインチューニングに匹敵するパフォーマンスを実現します。 現在サポートしている手法は、次の4つです。 ・LoRA ・Prefix Tuning ・P-Tuning ・Prompt Tuning 2. Colabでの実行Google Colab

                      Google Colab で PEFT による大規模言語モデルのファインチューニングを試す|npaka
                    • LlamaIndexを使ってローカル環境でRAGを実行する方法 - 電通総研 テックブログ

                      こんにちは。電通総研コーポレート本部システム推進部の山下です。 最近はChatGPTなどのLarge Language Model(LLM)を利用したAIが話題ですね。 そのLLMを応用したRetrieval-Augmented Generation(RAG)という技術があります。 これは、LLMに文書検索などを用いて関連する情報を与えて回答させることで、 LLMが知識として持っていない内容を回答させたり誤った情報を答えてしまうハルシネーションを抑止する技術です。 今回はこのRAGをLlamaIndexというライブラリを使ってローカル環境で実装する方法について紹介します。 なぜローカル環境でLLMを利用したいのか 大変便利なツールのLLMですが、利用が難しいこともあります。 例えば、機密情報を取扱いたい、外部インターネットへの接続に制限が掛かっているといった場合です。 最終的にOpenAI

                        LlamaIndexを使ってローカル環境でRAGを実行する方法 - 電通総研 テックブログ
                      • Sakana.aiが公開した「Evolutionary Model Merge」手法を「mergekit」で実施してみる - Taste of Tech Topics

                        皆さんこんにちは 機械学習チームYAMALEXの@tereka114です。 YAMALEXは Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 日々、LLMが進化していて、画像が本職(のはず)の私ですら、ここ数年LLMの勉強をはじめています。 学習してモデル公開しましたといった記事はよく見ますが、今回は今、非常に注目されている日本に拠点があるAIスタートアップである「Sakana.ai」が公開した「Evolutionary Model Merge」を使う話をします。 Evolutionary Model Merge 「Evolutionary Model Merge」は「Sakana.ai」から発表された進化的モデルマージと呼ばれる技術です。 端的に言ってしまえば、複数のモデルを利用して新し

                          Sakana.aiが公開した「Evolutionary Model Merge」手法を「mergekit」で実施してみる - Taste of Tech Topics
                        • LINE LLMをMacで動かす - きしだのHatena

                          先日、LINE(現LINEヤフー)のNLP Foundation Devチームから日本語言語モデルが公開されました。(以降LINE LLMと表記します) 36億パラメータの日本語言語モデルを公開しました Instruction Tuningにより対話性能を向上させた3.6B日本語言語モデルを公開します でも「NVIDIAのGPUがないと動かないんでしょ」と、試していない人も多いんではないでしょうか。 そこでこのブログでは、MacでLINE LLMを動かす手順をまとめたいと思います。 Windowsや他のLLMでもほぼ同じ手順で動かせるはずです。 次のような手順で進めます。 pythonインストール ライブラリインストール 1.7Bのサンプルコードを動かす チャットインタフェースで1.7Bを動かす CTranslateによる3.6B llama.cppによる3.6B Pythonインストール

                            LINE LLMをMacで動かす - きしだのHatena
                          • Transformer モデルの仕組みを JAX/Flax で実装しながら解説してみる(パート1) - めもめも

                            なんの話かと言うと 最近、大規模言語モデルを用いたチャットシステムがよく話題になりますが、言語モデルの性能が大きく向上するきっかけとなったのが、下記の論文で公表された「Transformer」のアーキテクチャーです。 arxiv.org ここでは、JAX/Flax を用いて Transformer を実装しながら、その仕組みを解説していきます。このパート1では、Embedding レイヤーを解説します。 JAX/Flax の使い方を学びたいという方は、こちらの書籍を参照してください。 JAX/Flaxで学ぶディープラーニングの仕組み 作者:中井悦司マイナビ出版Amazon Transformer の全体像 冒頭の論文では、Transformer Encoder と Transformer Decoder を組み合わせた下記のモデルが説明されています。 左側の Encoder でテキストを解

                              Transformer モデルの仕組みを JAX/Flax で実装しながら解説してみる(パート1) - めもめも
                            • Google Colab ✖ OpenAI GPT-OSS 20Bモデルのファインチューニング完全ガイド - Sun wood AI labs.2

                              🚀 はじめに このチュートリアルでは、OpenAIの最新モデルGPT-OSS 20BをGoogle Colab L4 GPU(22GB VRAM)でファインチューニングする方法を解説します。UnslothライブラリとLoRAを使用することで、効率的にモデルを訓練できます。 OpenAI gpt-oss をファインチューニングできるnotebookを日本語化してみた!!! *後ほど記事にしてだしまーす!! https://t.co/ZuPbcKi4jT pic.twitter.com/5Ji93tmiKA — Maki@Sunwood AI Labs. (@hAru_mAki_ch) August 9, 2025 📢 最新情報 新機能: UnslothがOpenAIのGPT-OSSモデルのトレーニングに対応! Text-to-Speech (TTS)モデルのサポートも追加 新しいDyna

                                Google Colab ✖ OpenAI GPT-OSS 20Bモデルのファインチューニング完全ガイド - Sun wood AI labs.2
                              • ローカル環境でQwen3-Omniを動かす

                                はじめに Qwen3-Omni-30B-A3B-InstructがQwenよりリリースされた。 手元のマシンを使ってローカル環境でも動かせることがわかったので、備忘録的に記事にまとめる。 環境 Mac Studio EVO-X2 導入手順:Mac 執筆時点でまだggufへの変換ができなかったため、transformersを使って推論をする。使用した感じ、おそらくメモリは128GBないと厳しい。 環境構築 git, uvは導入済みとする。 $ git clone https://github.com/QwenLM/Qwen3-Omni.git $ cd Qwen3-Omni $ uv init --python 3.12 $ uv venv $ uv pip install gradio accelerate torch torchvision soundfile qwen-omni-uti

                                  ローカル環境でQwen3-Omniを動かす
                                • TransformersのPipelinesで日本語固有表現抽出 - Retrieva TECH BLOG

                                  こんにちは。TSUNADE事業部研究チームリサーチャーの坂田です。 本記事では、Hugging Face 社が開発しているTransformersのPipelinesという仕組みを使って日本語の固有表現抽出を行う方法をご紹介します。 Transformersとは? 日本語学習済み言語モデル Pipelines Trainer 固有表現抽出とは? 実際に日本語NERTを試してみる 必要な各種依存ライブラリのインストール 使用するデータ 日本語固有表現抽出データセットでのFine-tuning Pipelinesを使った固有表現抽出 実行例 おわりに 参考 Transformersとは? TransformersはHuggingFace社が公開しているPython用ライブラリで、BERTを始めとするTransformer系の言語モデルを使用する際のデファクトスタンダードになっています。また、最

                                    TransformersのPipelinesで日本語固有表現抽出 - Retrieva TECH BLOG
                                  • We Got Claude to Fine-Tune an Open Source LLM

                                    We gave Claude the ability to fine-tune language models using a new tool called Hugging Face Skills. Not just write training scripts, but to actually submit jobs to cloud GPUs, monitor progress, and push finished models to the Hugging Face Hub. This tutorial shows you how it works and how to use it yourself. Claude Code can use "skills"—packaged instructions, scripts, and domain knowledge—to accom

                                      We Got Claude to Fine-Tune an Open Source LLM
                                    • Stable Diffusion (Diffusers)でLoRA~理論と実践~ | Shikoan's ML Blog

                                      Stable DiffusionでのLoRAをdiffusersで試してみます。3Dモデルに対して、Unityで透過スクショを撮りLoRAで学習させるというよくあるやり方ですが、LoRAにおけるData Augmentationの有効性など興味深い点が確認できました。 はじめに 前々から気になっていたStable DiffusionのLoRAを使ってみました。3DモデルからスクショをとってLoRAで学習させるという「何番煎じだお前」って手法ですが、なかなかおもしろい結果になりました。 公式ドキュメント:https://huggingface.co/docs/diffusers/training/lora LoRAとは LoRAってよく使われる割には原著論文がそこまで解説されない気はします笑 (自分はNLPの専門家ではないので、この論文はさーっとしか読んでいませんが、 )原著論文はこちらで、

                                        Stable Diffusion (Diffusers)でLoRA~理論と実践~ | Shikoan's ML Blog
                                      • 自分の過去ツイートでrinna/japanese-gpt-neox-3.6bをfinetuningして「俺tter」を生成する|松note

                                        Windows環境でLLMをPEFTでファインチューニングしようとしたとき、ほぼ必ずbitsandbytesというライブラリのエラーに悩まされると思うのですが、こちらの記事ではその対処法が書いてあります。助かりました。 そして、npakaさんの上記の記事を参考に、Google Colabではなくローカルで動かしたという感じです。 キャラクター性が一貫したLLMを作るための最初のテストに最適「一貫したキャラ性を持った回答をするAIを作りたい」 「でもライセンスの問題もなくキャラ性を保ったままそれなりの規模があるデータセットなんて無い」 「自分のツイートを使えばいいのでは💡」 そんなことを考えて、自分(@matsu_vr)の過去ツイートで、日本語LLMのrinna/japanese-gpt-neox-3.6bをファインチューニングしたところ、思った以上に「俺っぽい」ツイートを生成することがで

                                          自分の過去ツイートでrinna/japanese-gpt-neox-3.6bをfinetuningして「俺tter」を生成する|松note
                                        • WSL2でunslothのGPROトレーニングを試してみる|noguchi-shoji

                                          「DeepSeek-R1 の推論を自分のローカル デバイスで再現できるように」「わずか7GBのVRAMでアハ体験を」とのことなので、UnslothのGRPO(Group Relative Policy Optimizatin)トレーニングを試してみます。 今回は Phi-4 (14B)で試してみます。 You can now reproduce DeepSeek-R1's reasoning on your own local device! Experience the "Aha" moment with just 7GB VRAM. Unsloth reduces GRPO training memory use by 80%. 15GB VRAM can transform Llama-3.1 (8B) & Phi-4 (14B) into reasoning models. Blo

                                            WSL2でunslothのGPROトレーニングを試してみる|noguchi-shoji
                                          • Google Colab で Llama 3 のファインチューニングを試す |npaka

                                            「Google Colab」での「Llama 3」のファインチューニングを試したので、まとめました。 【注意】Google Colab Pro/Pro+のA100で動作確認しています。 1. Llama 3「Llama 3」は、Metaが開発したオープンモデルです。 2. 学習Colabでの学習手順は、次のとおりです。 (1) Colabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」の「A100」を選択。 (2) パッケージのインストール。 # パッケージのインストール !pip install -U transformers accelerate bitsandbytes !pip install trl peft wandb !git clone https://github.com/huggingface/trl %cd trl(3) 環境変数の準備。 左

                                              Google Colab で Llama 3 のファインチューニングを試す |npaka
                                            • Google Colab で FlexGen を試す|npaka

                                              「Google Colab」で「FlexGen」を試したのでまとめました。 【注意】「OPT-30B」のチャットデモを実行するには、「Google Colab Pro/Pro+」の「プレミア」の「ハイメモリ」と、300GBほどのGoogleドライブが必要です。 1. FlexGen「FlexGen」は、限られたGPUメモリ (16GB T4 または 24GB RTX3090など) で大規模言語モデルを実行するための高スループット生成エンジンです。 大規模言語モデル (LLM) は、ChatGPTやCopilotなどのアプリケーションのコアになりますが、LLM推論の計算とメモリの要件が高いため、従来では複数のハイエンドアクセラレータを使用した場合にのみ実行可能でした。「FlexGen」は、LLM推論のリソース要件を1つのコモディティGPU (T4、3090など) にまで下げ、さまざまなハード

                                                Google Colab で FlexGen を試す|npaka
                                              • Google Colab で gpt-oss を試す|npaka

                                                「Google Colab」で「gpt-oss」を試したのでまとめました。 1. Google Colab「Google Colab」は、Google が提供するクラウドベースの「Jupyter Notebook」環境です。ブラウザ上で手軽に Python コードを記述・実行でき、特に機械学習やデータ分析の学習・プロトタイピングに適しています。 2. gpt-oss「gpt-oss」は、OpenAIが開発したオープンウェイトのLLMです。 ・gpt-oss-20b 16GBメモリ搭載の一般的な環境向け。 メモリ16GB以上、ストレージ14GB。 ・gpt-oss-120b 高性能GPUを備えたハイエンド環境向け。 メモリ60GB以上、ストレージ65GB。 3. Google Colab で gpt-oss を試す「Google Colab」で「gpt-oss」を試す手順は、次のとおりです。

                                                  Google Colab で gpt-oss を試す|npaka
                                                • kotoba-tech/kotoba-whisper-v2.2 · Hugging Face

                                                  Kotoba-Whisper-v2.2 Kotoba-Whisper-v2.2 is a Japanese ASR model based on kotoba-tech/kotoba-whisper-v2.0, with additional postprocessing stacks integrated as pipeline. The new features includes (i) speaker diarization with diarizers and (ii) adding punctuation with punctuators. The pipeline has been developed through the collaboration between Asahi Ushio and Kotoba Technologies Transformers Usage

                                                    kotoba-tech/kotoba-whisper-v2.2 · Hugging Face
                                                  • DeepSeek R1 Dynamic 1.58-bit の概要|npaka

                                                    以下の記事が面白かったので、簡単にまとめました。 ・Run DeepSeek R1 Dynamic 1.58-bit - Unsloth 1. DeepSeek R1 Dynamic 1.58-bit「DeepSeek-R1」は、オープンでありながら、「OpenAI」のo1に匹敵することで話題になっています。「Unsloth」では、より多くのローカルユーザーがこれを実行できるようにする方法を検討し、「DeepSeek-R1 671B」を「131GB」のサイズに量子化することに成功しました。これは、非常に機能的でありながら、元の720GBから80%のサイズ削減です。 「DeepSeek R1」のアーキテクチャを研究することで、特定のレイヤーを高bit (4bitなど) で選択的に量子化し、残り多くの MoEレイヤーを 1.5bitのままにすることに成功しました。すべてのレイヤーを単純に量子化

                                                      DeepSeek R1 Dynamic 1.58-bit の概要|npaka
                                                    • Hugging FaceでOpenAIの音声認識”Whisper”をFine Tuningする方法が公開されました | DevelopersIO

                                                      こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、先日Hugging FaceのブログでHugging Faceのフレームワークを用いたfine-tuningの実行方法が紹介されました。 fine-tuningにより、自社で蓄積された音声や書き起こしのデータセットがある場合は、特化した学習をすることが可能です。 また著名なHugging Faceからfine-tuningの実装がリリースされたことで、今後様々なシーンでの応用の可能性を感じます。 Hugging FaceブログではHindi語を例として実施していますが、今回はこちらについて、日本語データを例にしながら動作を確認していきたいと思います。 概要 本記事では、Hugging Faceのフレームワークを用いたfine-tuningの実行を、日本語データセットを例

                                                        Hugging FaceでOpenAIの音声認識”Whisper”をFine Tuningする方法が公開されました | DevelopersIO
                                                      • Fate Stay Nightで学ぶGraphRAG(GoogleColab付) - Sun wood AI labs.2

                                                        はじめに Graph retrieval augmented generation (Graph RAG) は、従来のベクター検索による情報検索手法に強力な手法として注目を集めています。Graph RAGは、データをノードと関係性で構造化するグラフデータベースの特性を活かし、検索された情報の深さと文脈性を高めます。 本記事では、人気アニメ「Fate Stay Night」のWikipediaデータを使って、LangChainとNeo4jを用いたGraph RAGの実践的な構築方法を初心者向けに解説します。 環境のセットアップ まずは必要なライブラリをインストールしましょう。 %%capture %pip install --upgrade --quiet langchain langchain-community langchain-openai langchain-experimenta

                                                          Fate Stay Nightで学ぶGraphRAG(GoogleColab付) - Sun wood AI labs.2
                                                        • 大規模言語モデルをシングルGPUで動かせる!? FlexGenを触ってみた | DevelopersIO

                                                          こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 今回は大規模言語モデルをシングルGPUで動かせるという噂のFlexGenについて使ってみて紹介したいと思います。 FlexGenとは FlexGenは、大規模言語モデル(LLM: Large Language Model)をシングルGPU(例えば、16GBのT4や24GBのRTX3090)で実行可能な高スループットな生成エンジンです。 以下がGitHubになります。 FlexGenは、Meta社が開発したOPT(Open Pre-trained Transformer)を動かすことができ、実際にAIアシスタントと会話することができます。 参考までにOPTに関する論文は以下です。 使用環境 Google ColaboratoryのPro環境を使います。モデルのアーキテクチャによって動作させるスペック

                                                            大規模言語モデルをシングルGPUで動かせる!? FlexGenを触ってみた | DevelopersIO
                                                          • Google Colab で はじめる Trinart Stable Diffusion|npaka

                                                            「Trinart Stable Diffusion」が二次元キャラの画像生成が得意らしいということで試してみました。 ・Trinart Stable Diffusion v2 ・Stable Diffusion v1.4 1. Trinart Stable Diffusion「Trinart Stable Diffusion」は、「Stable Diffusion」を二次元イラストのデータセットでファインチューニングして作られた画像生成AIです。Twitterボット「とりんさまAI」@trinsama ( https://twitter.com/trinsama ) で学習しています。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) 新規のColabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」を選択。 # GPUの確認 !nvidi

                                                              Google Colab で はじめる Trinart Stable Diffusion|npaka
                                                            • Stable Diffusionのimg2imgをGoogle Colabでやってみる | cedro-blog

                                                              1.はじめに AI画像生成を行うStable Diffusionに、img2img(画像と文から画像生成する機能)が追加されました。前回に続いて、Google Colabで動かしてみたいと思います。 2.コード Hugging Faceからアクセス・トークンの取得をしていない方は、前回のブログの「2.アクセス・トークンの取得」を参考に取得してから下記に進んで下さい。 コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい方は、この「リンク」をクリックし表示されたノートブックの先頭にある「Colab on Web」ボタンをクリックすると動かせます。 まず、セットアップをおこないます。 #@title **セットアップ** # ライブラリ・インストール ! pip install transformers gradi

                                                                Stable Diffusionのimg2imgをGoogle Colabでやってみる | cedro-blog
                                                              • CUDA 12.8 における Checkpoint API の概要 - NTT docomo Business Engineers' Blog

                                                                こんにちは、イノベーションセンターの鈴ヶ嶺です。普段は AI/ML システムに関する業務に従事しています。 本記事では、CUDA 12.8 から追加された Checkpoint API の概要について解説します。 まず、Checkpoint のユースケースやこれまでの NVIDIA CUDA における Checkpoint の試みなどの背景を説明し、新たに追加された CUDA Checkpointing について解説します。 さらに実際に実装し、torchvision や transformers などの CUDA アプリケーションに対して、Checkpoint の検証をしています。 背景 CUDA Checkpointing 実装と検証 cu_check tool 検証 Pytorch Counter torchvision transformers まとめ 背景 Checkpoint

                                                                  CUDA 12.8 における Checkpoint API の概要 - NTT docomo Business Engineers' Blog
                                                                • (2023/9/1 更新)AUTOMATIC1111簡単導入!PythonもGitも必要無しのスタンドアローンセットアップ法|niel

                                                                  (2023/9/1 更新)AUTOMATIC1111簡単導入!PythonもGitも必要無しのスタンドアローンセットアップ法 ■AUTOMATIC1111 WebUIとはAUTOMATIC1111氏という方が作った『お絵描きAI StableDiffusionをわかりやすく簡単に使う為のWebUI型(ブラウザを使用して操作するタイプ)のアプリケーション』のことです。 機能も豊富で更新も頻繁にあり、Windowsローカル環境でStableDiffusionを使うなら間違いなくコレです。本記事はその素晴らしいWebUIを公式とは違う方法で簡単に導入する為の、やや初心者向けの解説記事です。 ■本記事の導入方法の特徴1.PythonとGitインストール不要!PythonやGitのややこしいインストール作業は必要ありません。全て内包済みの専用セットを用意してあるので、それをダウンロードしてセットアッ

                                                                    (2023/9/1 更新)AUTOMATIC1111簡単導入!PythonもGitも必要無しのスタンドアローンセットアップ法|niel
                                                                  • Making LLMs even more accessible with bitsandbytes, 4-bit quantization and QLoRA

                                                                    LLMs are known to be large, and running or training them in consumer hardware is a huge challenge for users and accessibility. Our LLM.int8 blogpost showed how the techniques in the LLM.int8 paper were integrated in transformers using the bitsandbytes library. As we strive to make models even more accessible to anyone, we decided to collaborate with bitsandbytes again to allow users to run models

                                                                      Making LLMs even more accessible with bitsandbytes, 4-bit quantization and QLoRA
                                                                    • はじめての自然言語処理 Fusion-In-Decoder でクイズに答えるモデルを作る | オブジェクトの広場

                                                                      今回は Fusion-In-Decoder を使ってクイズに答えるモデルを作ります。以前から Wikipedia 等の外部情報を参照できるテキスト生成モデルを試してみたいと思っていました。Fusion-In-Decoder の発表は 2020 年なので少し前のモデルですが、T5 ベースで手軽に試せるサイズ感ですので、日本語で試してみましょう。 1. はじめに 今回紹介する Fusion-In-Decoder(以下、FiD )1 は Meta AI (当時は Facebook AI Research) が発表した Open Domain question Answering タスクを解くテキスト生成モデルです。 じつは、以前から外部情報を参照できるテキスト生成モデルを試してみたくて2、 Google の RETRO3 の論文を読んでたんです。 なのですが、外部情報のサイズ感が 1000 B

                                                                        はじめての自然言語処理 Fusion-In-Decoder でクイズに答えるモデルを作る | オブジェクトの広場
                                                                      • Google Colab で Rinna-3.6B のLoRAファインチューニングを試す|npaka

                                                                        「Google Colab」で「Rinna-3.6B」のLoRAファインチューニングを試したのでまとめました。 【注意】Google Colab Pro/Pro+ の A100で動作確認しています。VRAMは14.0GB必要でした。 1. Rinna-3.6B「OpenCALM-7B」は、「サイバーエージェント」が開発した、日本語LLMです。商用利用可能なライセンスで公開されており、このモデルをベースにチューニングすることで、対話型AI等の開発が可能です。 「Rinna-3.6B」は、「Rinna」が開発した、日本語LLMです。商用利用可能なライセンスで公開されており、このモデルをベースにチューニングすることで、対話型AI等の開発が可能です。 2. 学習「Google Colab」で「Rinna-3.6B」のLoRAファインチューニングを行います。データセットは@kun1em0nさんの「k

                                                                          Google Colab で Rinna-3.6B のLoRAファインチューニングを試す|npaka
                                                                        • npm感覚でPython環境を構築!非PythonエンジニアがuvでPythonプロジェクト(Talk to the City)を動かす

                                                                          uv を使った Python のパッケージ依存関係の解決方法を解説していきます。 業務やプライベートで扱う言語は Node.js がメインで、普段は npm や pnpm を使ってライブラリの依存関係を解決しています。 そんな私がある機会でTalk to the Cityを検証して欲しいと頼まれました。 Talk to the City は 2024 年の東京都知事選挙で安野たかひろ氏のチームが使ったことで注目された Python プロジェクトです。 Python の開発環境を作って README 通りに動作させてやれば良いかと進めていったところで絶望しました。 DevContainer を用いてクリーンな Python の実行環境を用意して試したのですが、2025 年 3 月 19 日現在、デモ通り動かしてもエラーが発生します。 ImportError: cannot import na

                                                                            npm感覚でPython環境を構築!非PythonエンジニアがuvでPythonプロジェクト(Talk to the City)を動かす
                                                                          • swift-transformers で LLM を動かしてみた - ABEJA Tech Blog

                                                                            ABEJA でエンジニアをしている石川です。これは ABEJA アドベントカレンダー 2024 の 18 日目の記事です。 CoreML で機械学習モデルを動かす swift-transformers を試す Mistral 7B モデルを動かす swift-transformers で推論を実装する Python で動かしてみる CoreML モデルに変換 Swift で動かす パフォーマンス We Are Hiring! macOS/iOS で機械学習モデルを動かすにはいくつかの方法がありますが、Apple シリコンの能力を十分に引き出すためには CoreML を使うのが最適です。 Python 向け機械学習フレームワークである PyTorch も MPS バックエンドによって、Apple シリコンの GPU を利用することはできます。しかし、Apple の NPU (Neural P

                                                                              swift-transformers で LLM を動かしてみた - ABEJA Tech Blog
                                                                            • Google Colab ではじめる LoRA|npaka

                                                                              Google Colab で LoRA を試したのでまとめました。 1. LoRA「LoRA」(Low-rank Adaptation)は、数枚の被写体画像と対応するテキストを元にファインチューニングを行うことで、Text-to-Imageモデルに新たな被写体を学習させる手法です。 特徴は、次のとおりです。 ・Dreamboothより高速 ・VRAM 8GBでも動作 ・学習データだけ抽出して他モデルとマージできる ・学習結果のサイズが小さい (Unet のみで3MB、Unet+Clipで6MB) ・UnetとCLIPの両方をファインチューニング可能。 2. ファインチューニングの実行Colabでのファインチューニングの実行手順は、次のとおりです。 (1) メニュー「編集→ノートブックの設定」で、「ハードウェアアクセラレータ」に「GPU」を選択。 (2) Googleドライブのマウント。 #

                                                                                Google Colab ではじめる LoRA|npaka
                                                                              • Finally, a Replacement for BERT: Introducing ModernBERT

                                                                                TL;DR This blog post introduces ModernBERT, a family of state-of-the-art encoder-only models representing improvements over older generation encoders across the board, with a 8192 sequence length, better downstream performance and much faster processing. ModernBERT is available as a slot-in replacement for any BERT-like models, with both a base (149M params) and large (395M params) model size. Cli

                                                                                  Finally, a Replacement for BERT: Introducing ModernBERT
                                                                                • Llama 3.1 の新機能と使い方|npaka

                                                                                  以下の記事が面白かったので、簡単にまとめました。 ・Llama 3.1 - 405B, 70B & 8B with multilinguality and long context 1. Llama 3.1 の新機能「Llama 3.1」の新機能は、次のとおりです。 ・128Kトークンの大きなコンテキスト長 (元は8K) ・多言語 ・ツールの使用 ・4,050億パラメータの非常に大きな高密度モデル ・より寛容なライセンス 8B、70B、405Bの3つのサイズがあり、それぞれにベースモデルと指示モデルがあります。128Kトークンのコンテキスト長と、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語を含む8つの言語をサポートしています。「Llama 3.1」は、より長いコンテキストに役立つ効率的な表現である「Grouped-Query Attention」(

                                                                                    Llama 3.1 の新機能と使い方|npaka