並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 127件

新着順 人気順

finetuneの検索結果1 - 40 件 / 127件

  • Stable Diffusionを使って「いらすとや風画像生成モデル」を作った話 - ぬいぐるみライフ?

    今話題の画像生成モデル「Stable Diffusion」をいらすとやの画像でfinetuneしてみたところ、任意のテキストに対していらすとやっぽい画像を作れるモデルが出来上がりました。 Stable Diffusionとは Stable Diffusionは、指定されたテキスト(文字列)に対応する画像を生成する機械学習モデルのひとつです。ソースコードと学習済みモデルは無償で公開されていて、誰でも利用できるようになっています。 (Stable DiffusionのGitHubページより引用) 今回は、この画像生成モデルをいらすとやの画像でfinetune(微調整)することで、入力テキストに対応する画像をいらすとやのようなスタイルで出力させることを試みました。 開発環境 開発環境はGoogle Colab Pro+で、主にプレミアムGPU(NVIDIA A100)を使いました。Stable

      Stable Diffusionを使って「いらすとや風画像生成モデル」を作った話 - ぬいぐるみライフ?
    • 【AI動画生成】Sora 要素技術解説

      もう全部OpenAIでいいんじゃないかな はじめに 月間技術革新です。 ということで、昨日OpenAIから発表された新しい動画生成AI「Sora」が非常に話題となっていますね。 圧倒的な一貫性の保持と1分間に及ぶ長時間動画が生成可能という事で、現状の動画生成技術を圧倒的に凌駕する性能を持っているようです。 在野エンジニアの小手先テクニックなど一笑に付すような圧倒的性能を Soraの凄さは色んなエンジニアやインフルエンサーがたくさん語っているのでそちらを見てもらうとして、この記事ではSoraを構成する各技術について簡単に解説していければと思います。 Soraの技術構成 論文が公開されているわけではないですが、OpenAIが要素技術の解説ページを公開してくれているため、そのページを参考にしていきます。 原文を見たい方はこちらからどうぞ 全体構成 Soraは以下の技術要素で構成されているとのこと

        【AI動画生成】Sora 要素技術解説
      • 高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉

        こんにちは、あんどう(@t_andou)です。 最近、自然言語処理のAIの一種であるBERTをよく触っています。 今回はBERTのソースを読まなくてもサクッと試せる環境を用意しましたので、メモとして残しておきます。 BERTとはどういうものか 画像引用:https://arxiv.org/pdf/1810.04805.pdf 凄くざっくりと説明すると、BERTとは2018年末にGoogleの人たちが開発した自然言語処理において汎用的に使えて精度の良いAIです。 自然言語処理において精度を測るためにいくつかのタスクがあるのですが、発表された時点ではダントツの成績でした。 仕組みなどの詳細については論文を読むか解説記事をググってください。 2019/09/22時点で既により精度の良い手法がどんどん発表されていますが、BERTの情報量と比べるとまだ少ないため、入門としてはBERTを触ってみるのが

          高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉
        • 【画像生成AI】お次は数枚の画像で「任意の人物やキャラ」をどこでも好きに登場させられる技術が誕生→二次創作の規制に関わるのでは?

          mi141 @mi141 Googleから凄い論文が出てますね。拡散モデルを数枚でちょっとfinetuneするだけで、「あなたのワンちゃん」を生成画像内に自由に登場させられます! StableDiffusionでやる人めっちゃ出てきそう。 原理としては対象に新しいwordを割り当ててモデルをfinetuneするようです。 dreambooth.github.io pic.twitter.com/fZTi9DBq72 2022-08-26 12:44:52

            【画像生成AI】お次は数枚の画像で「任意の人物やキャラ」をどこでも好きに登場させられる技術が誕生→二次創作の規制に関わるのでは?
          • ローカルで動く大規模言語モデル(Rinna-3.6B)を使ってあなただけのAIパートナーを作ろう - Qiita

            はじめに はじめまして。株式会社ずんだもんのアルバイトエンジニアのinadaです。 今日は誰でも作れるずんだもんと題してローカルPCにずんだもんAIを作ります。この記事はそのチュートリアル記事です。 (誰でもと書いてますが、RTX 3060(12G)搭載以上のPC推奨です。CPUマシンでも出来る部分はありますが非推奨です。RTX 3060(12G)のグラボは5万ぐらいで買えるので持ってなければ買っちゃいましょう。) 対象読者/記事の範囲 ローカルPCで動かせる大規模言語モデルを、学習用のデータの用意から、学習、動かすところまで一通りどんなものか、お試ししてみたい人。 自分だけの世界にただ一人だけのうちの子、またはパートナー(うちの嫁)を作り育てたい。そんな沼にはまりたい、興味がある人。 AIの仕組みや用語は当記事では解説しません。AIの用語(モデル, loss, epoch, checkp

              ローカルで動く大規模言語モデル(Rinna-3.6B)を使ってあなただけのAIパートナーを作ろう - Qiita
            • GPT-3.5-turbo を Fine-tuning して GPT-4 相当の性能を獲得する - DROBEプロダクト開発ブログ

              はじめに 結論 背景 課題 Fine-tuning とは? Data の準備 Fine-tuning を実施 結果 おわりに 参考 はじめに こんにちは、DROBE の都筑です。 みなさん LLM 使っていますか。今回は GPT-3.5-turbo の Fine-tuning の事例を紹介します。 結論 GPT-4 を利用して得られたデータを使って GPT-3.5-turbo を Fine-tuning する事で、特定のタスクに関しては GPT-4 相当の性能が出る事が確認できた GPT-4 利用時点で使っていたプロンプトをそのまま使った場合の性能が一番高く、token 節約のためにプロンプトの省略をすると性能が劣化した 背景 LLM を利用したサービスの開発において、OpenAI を利用する場合にはモデルの選択肢がいくつかあります。2023年9月現在では、GPT-4 と GPT-3.5-

                GPT-3.5-turbo を Fine-tuning して GPT-4 相当の性能を獲得する - DROBEプロダクト開発ブログ
              • 大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama

                はじめに以下のオープンなプロジェクトの一環で、大規模言語モデルをフルスクラッチで作る練習をします。24年3月現在、協力者も募集中です。 リポジトリ当該プロジェクトの標準コードが公開※されたので、それを走らせてみます。 ※24/3/5時点で、まだレポジトリ内に、工事中の箇所が多々、あります。 このリポ上では、事前学習ー事後学習ー評価まで、一気通貫(?)したパイプラインが提供されています※。 0. 環境構築プロジェクトの本番環境はクラウドですが、今回は手持ちのubuntuを使います。 Dockerはお手軽な一方で、スパコン上で使うと、どうやら速度が落ちるらしいとの噂を聞いたので、condaで作ります(とはいえ、pipしか使わないので、pyenvでもいけると思います)。 必要なマシン適当なlinux: 例えばUbuntu 22.04.3 LTS GPU: 20 GBくらいは欲しいかも? ディスク

                  大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama
                • CyberAgent社の日本語LLM OpenCALMの対話モデル用途のfinetune検証 - ACES エンジニアブログ

                  こんにちは、ACESでアルゴリズムエンジニアとして働いている檜口です。最近はChatGPTを始めとする言語モデルの研究開発やプロダクト改善に取り組んでいます。 昨年末のChatGPTのリリース以降、大規模言語モデル(large language model, LLM)の社会実装が急速に進んできています。弊社でも商談解析AIツールACES MeetにLLMを組み込むなど、LLMの活用を広げています。こちらに関してはLLMを活用したAIまとめ機能リリースの裏側について過去記事を書いてありますのでご興味ある方はぜひご覧ください。 tech.acesinc.co.jp LLMはOpenAIのChatGPTが最も有名ですが、最近はオープンソースでモデルを開発する流れも活発になっています。特に、英語で学習したオープンソースモデルはMeta社のリリースしたLlamaを始めとして非常に強力なものがリリース

                    CyberAgent社の日本語LLM OpenCALMの対話モデル用途のfinetune検証 - ACES エンジニアブログ
                  • LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ |npaka

                    「LLM」の「LoRA」「RLHF」によるファインチューニング用のツールキットをまとめました。 1. PEFT「PEFT」は、モデルの全体のファインチューニングなしに、事前学習済みの言語モデルをさまざまな下流タスクに適応させることができるパッケージです。 現在サポートしている手法は、次の4つです。 ・LoRA ・Prefix Tuning ・P-Tuning ・Prompt Tuning ◎ LLaMA + LoRA 「Alpaca-LoRA」は、「LLaMA」に「LoRA」を適用して「Alpaca」の結果を再現するためのコードが含まれているリポジトリです。「finetune.py」がLoRAの参考になります。 ・tloen/alpaca-lora ◎ RedPajama-INCITE + LoRA 「INCITE-LoRA」は、「RedPajama-INCITE」に「LoRA」を適用する

                      LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ |npaka
                    • Building LLM applications for production

                      [Hacker News discussion, LinkedIn discussion, Twitter thread] A question that I’ve been asked a lot recently is how large language models (LLMs) will change machine learning workflows. After working with several companies who are working with LLM applications and personally going down a rabbit hole building my applications, I realized two things: It’s easy to make something cool with LLMs, but ver

                        Building LLM applications for production
                      • LLMのファインチューニングで事実の学習ができないのは本当か?ちょっと実験してみた

                        三行要約 LLM のファインチューニングでは事実の学習ができないという話があったので、事実の学習の例として、シェイクスピアのRomeoをBobに置き換える実験を行った 実験では、訓練対象とする層による結果の違いを確認した。アテンション層のみを訓練した場合は、Bobへの置き換えはできなかった。一方、全結合層を含めて訓練した場合は、学習率を調整するとBobへの置き換えができた ファインチューニングが事実の学習に向いているかはさておき、工夫次第でファインチューニングも事実の学習に利用できる可能性はある 背景 先月 ChatGPT(GPT-3.5 Turbo) のファインチューニングがリリースされました。いろいろな方が試されて、うまくいった、いかなかったという話がちらほらありました。例えば以下の記事では、一晩試してみた程度では、ChatGPTに最新の知識を教え込む目的での Fine-tuning

                          LLMのファインチューニングで事実の学習ができないのは本当か?ちょっと実験してみた
                        • はじめての自然言語処理 BERT を用いた自然言語処理における転移学習 | オブジェクトの広場

                          前回は Rasa NLU を用いて文章分類と固有表現抽出について紹介しました。今回は昨年後半に話題となった BERT について説明し、chABSAデータセットを用いた感情分析での実験結果、アプリケーションへの組み込み方などを紹介します。 1. 始めに 本記事では Google の BERT について、その概要を紹介し、BERT の事前学習済みモデルを用いてファインチューニングにより独自のモデルを構築することを念頭に、BERT の入出力インタフェースや学習データの構造を説明します。そして、ファインチューニングにより独自のモデルを構築する例として、chABSA データセットを用いた感情分析モデル生成の実験結果およびアプリケーションから利用する際のポイントを紹介します。 2. BERTの概要 BERT (Bidirectional Encoder Representations from Tra

                            はじめての自然言語処理 BERT を用いた自然言語処理における転移学習 | オブジェクトの広場
                          • ChatGPT の Fine-tuning を試したけど上手くいかなかった話

                            これはなに? 新しくリリースされた ChatGPT (GPT-3.5 Turbo) の Fine-tuning を試してみたメモ。 ChatGPTに最新の知識や専門知識を注入できるかどうかをテストしてみた。 結局、自分が想定した動きにはできなかったので記事にして供養します🙏 tl;dr 一晩試してみた程度では、ChatGPTに最新の知識を教え込む目的での Fine-tuning はうまく動かなかった。 OpenAIが提示している想定のユースケースとずれている利用方法なので、もう少しトライしても上手くいかないんじゃないかなと思う。 学習データに入れた質問をそのまま投げてあげると回答できることもある程度だった。(このままでは到底使えない…) 出力のトーンや言語の指示にプロンプトの文字数を大量に使っていて、それを大幅に削減したい、という時には使えそうだなという印象だった。 学習データの自動生成

                              ChatGPT の Fine-tuning を試したけど上手くいかなかった話
                            • 2020年機械学習総まとめ 興味深い論文/記事85選|akiraTOSEI

                              この記事では、2020年に発表された論文や記事のうち、特に興味深かったものを合計85紹介します。下記12のトピックに分けて紹介していますが、あくまで便宜上の分類です。私の個人的な2020年総括は以下の通りです。 ---------------------   個人的2020年総まとめと所感  --------------------- 2020年はTransformerが大躍進しました。自然言語処理では大規模なTransformerモデルであるGPT-3が高い精度を多くのタスクで叩き出しています。大量のデータと大量のパラメータを使って画像分類でも最高精度であったBig Transferを超えるものが出てきています。 差別的要素や著作権の問題のないフラクタル画像データセットはAIの倫理がさらに重視されるであろう今後は、非常に重要なものになってくるかもしれません。ImageNetにアクセスでき

                                2020年機械学習総まとめ 興味深い論文/記事85選|akiraTOSEI
                              • LoRA のもう一つの大きなメリット、GPUメモリ共有しつつ別のタスク処理モデルへ即時に切り替える方法 - A Day in the Life

                                低ランク行列を追加することで、大元のモデルを維持しつつ少ないコストで学習できる LoRA(Low-Rank Adaptation of Large Language Models)。先日、日本語でも大規模パラメータモデル cyberagent/open-calm-7b や rinna/japanese-gpt-neox-3.6b 等々がリリースされたり、HuggingFaceからはtransformersでLoRAを簡単に実現できるライブラリ、peft がリリースされたことで、試したことがある方も多いと思います。 ただ、LoRAのメリットについて主に学習の話が殆どで、もう一つの大きなメリットであるLLMのベースモデルのメモリを共有しつつ、複数のタスクをこなす方法の紹介は見かけたことがなかったので、それをpeftで行う方法についてのお話です。 なお、LoRAとは何か?というお話は、輪講資料

                                  LoRA のもう一つの大きなメリット、GPUメモリ共有しつつ別のタスク処理モデルへ即時に切り替える方法 - A Day in the Life
                                • 走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話

                                  3行でまとめると LLM分散学習ハッカソンに参加し、Vision-Languageモデルの一つであるBLIP2のHuggingFaceモデルを拡張して動画からテキスト生成するVideoBLIPを作成しました。ソースコードはGithubで公開しています。 運転映像に対する説明文章を学習に用いてVideoBLIPの学習を行い、運転映像を説明するモデルを作成しました。(以下のように運転映像に対して説明文が出力されます) 学習を高速化するためにマルチノードで学習を行えるようにし、実際にABCIのGPU80台を使って分散学習を行い、4GPUで行った場合の20倍の計算速度が実現できました(Strong Scaling!) 分散並列学習にはDeepSpeedを用いました。 はじめに Brain Researchチームで自動運転AIを開発している棚橋です。Brain Researchチームではレベル5の完

                                    走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話
                                  • Google "We Have No Moat, And Neither Does OpenAI"

                                    The text below is a very recent leaked document, which was shared by an anonymous individual on a public Discord server who has granted permission for its republication. It originates from a researcher within Google. We have verified its authenticity. The only modifications are formatting and removing links to internal web pages. The document is only the opinion of a Google employee, not the entir

                                      Google "We Have No Moat, And Neither Does OpenAI"
                                    • What We Learned from a Year of Building with LLMs (Part I)

                                      Join the O'Reilly online learning platform. Get a free trial today and find answers on the fly, or master something new and useful. Learn more It’s an exciting time to build with large language models (LLMs). Over the past year, LLMs have become “good enough” for real-world applications. The pace of improvements in LLMs, coupled with a parade of demos on social media, will fuel an estimated $200B

                                        What We Learned from a Year of Building with LLMs (Part I)
                                      • Google Colab で はじめる Stable Diffusion v1.4 (3) - Textual Inversionによるファインチューニング|npaka

                                        「Textual Inversion」による「Stable Diffusion」のファインチューニングに挑戦したので、その記録をまとめました。 RAMとGPUのメモリが必要なため「Colab (無料版)」では動きません。 「Colab Pro / Pro+」が必要です。 ・Stable Diffusion v1.4 ・rinongal/textual_inversion 前回 1. Textual Inversionによるファインチューニング「Textual Inversion」は、3~5枚の画像を使って「Stable Diffusion」のファインチューニングを行うことで、オリジナルの画風やキャラクターを追加学習させることができる手法です。 2. 学習用画像の準備ファインチューニングには5枚ほどの学習用画像が必要です。 ・画像サイズ は512×512。 ・Exifで回転してない画像。 ・

                                          Google Colab で はじめる Stable Diffusion v1.4 (3) - Textual Inversionによるファインチューニング|npaka
                                        • Minigpt-4

                                          MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models The recent GPT-4 has demonstrated extraordinary multi-modal abilities, such as directly generating websites from handwritten text and identifying humorous elements within images. These features are rarely observed in previous vision-language models. We believe the primary reason for GPT-4's advanced multi-modal

                                          • Annotated Research Paper Implementations: Transformers, StyleGAN, Stable Diffusion, DDPM/DDIM, LayerNorm, Nucleus Sampling and more

                                            This is a collection of simple PyTorch implementations of neural networks and related algorithms. These implementations are documented with explanations, and the website renders these as side-by-side formatted notes. We believe these would help you understand these algorithms better. We are actively maintaining this repo and adding new implementations. for updates. Translations English (original)

                                              Annotated Research Paper Implementations: Transformers, StyleGAN, Stable Diffusion, DDPM/DDIM, LayerNorm, Nucleus Sampling and more
                                            • local LLMをChatGPT API互換サーバとして使う方法まとめ(2023/10版) - Qiita

                                              はじめに openai chat completions api(以下ChatGPT API)を使っているが、コストダウンやドメインに特化したfinetuneモデルを使いたいといったニーズでlocal LLMを使いたいというニーズがあると思います。 その場合に、ChatGPT APIを利用する側のアプリケーションコードはそのままで、local LLMをサーバとしてたてて、使用するLLMだけ変えるという実現方法が考えられます。 幾つか良い実現方法があったため、現状、どのようなツールを使用して実現できるか簡単にまとめました。 ところで、偉い人に「うちもChatGPT作って」と言われた時、あなたならどうしますか? (その答えの一つを「おわりに」に書きました) 解説 ChatGPT API互換サーバを作る場合、自分でlocal LLMをラップしてAPIサーバを実装してしまうことも考えられますが、そ

                                                local LLMをChatGPT API互換サーバとして使う方法まとめ(2023/10版) - Qiita
                                              • ML Pipeline for Kaggleのススメ - 重み元帥によるねこにっき

                                                はじめに Bengali.AI Handwritten Grapheme ClassificationというKaggleの画像コンペに参加しました. ベンガル語の書記素(grapheme)が1つ描かれた画像から,その書記素がどのようなクラスに属するかを分類する問題設定で,簡単に言えば少し難しいmnistです. 順位が察し*1だったので解法については差し控えますが,円滑にモデルを生成するためにPipelineを組みました. 「せっかくだから次回以降のコンペでも使えるように抽象的に書こう!!」というモチベーションのもと生まれたスパゲッティ🍝は以下の通りです. github.com この記事では,自戒を込めて,Kaggle用途にPipelineを作成して得られた知見をまとめます. また使用FrameworkがPyTorchなので,一部PyTorchにしか当てはまらないことがあります. あくまで

                                                  ML Pipeline for Kaggleのススメ - 重み元帥によるねこにっき
                                                • GitHub - Lightning-AI/pytorch-lightning: Pretrain, finetune and deploy AI models on multiple GPUs, TPUs with zero code changes.

                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                    GitHub - Lightning-AI/pytorch-lightning: Pretrain, finetune and deploy AI models on multiple GPUs, TPUs with zero code changes.
                                                  • RAGでの回答精度向上のためのテクニック集(応用編-A)

                                                    はじめまして。株式会社ナレッジセンスの門脇です。普段はエンジニア兼PMとして、「社内データに基づいて回答してくれる」チャットボットをエンタープライズ企業向けに提供しています(一応、200社以上に導入実績あり)。ここで開発しているチャットボットは、ChatGPTを始めとしたLLM(Large Language Models)を活用したサービスであり、その中でもRAG(Retrieval Augmented Generative)という仕組みをガッツリ利用しています。本記事では、RAG精度向上のための知見を共有していきます。 はじめに この記事は何 この記事は、LlamaIndexのAndrei氏による『A Cheat Sheet and Some Recipes For Building Advanced RAG』[1]という記事で紹介されている「RAGに関するチートシート」について、And

                                                      RAGでの回答精度向上のためのテクニック集(応用編-A)
                                                    • Open challenges in LLM research

                                                      [LinkedIn discussion, Twitter thread] Never before in my life had I seen so many smart people working on the same goal: making LLMs better. After talking to many people working in both industry and academia, I noticed the 10 major research directions that emerged. The first two directions, hallucinations and context learning, are probably the most talked about today. I’m the most excited about num

                                                        Open challenges in LLM research
                                                      • Understanding Large Language Models

                                                        Large language models have taken the public attention by storm – no pun intended. In just half a decade large language models – transformers – have almost completely changed the field of natural language processing. Moreover, they have also begun to revolutionize fields such as computer vision and computational biology. Since transformers have such a big impact on everyone’s research agenda, I wan

                                                          Understanding Large Language Models
                                                        • 自分の過去ツイートでrinna/japanese-gpt-neox-3.6bをfinetuningして「俺tter」を生成する|松xRのnote

                                                          Windows環境でLLMをPEFTでファインチューニングしようとしたとき、ほぼ必ずbitsandbytesというライブラリのエラーに悩まされると思うのですが、こちらの記事ではその対処法が書いてあります。助かりました。 そして、npakaさんの上記の記事を参考に、Google Colabではなくローカルで動かしたという感じです。 キャラクター性が一貫したLLMを作るための最初のテストに最適「一貫したキャラ性を持った回答をするAIを作りたい」 「でもライセンスの問題もなくキャラ性を保ったままそれなりの規模があるデータセットなんて無い」 「自分のツイートを使えばいいのでは💡」 そんなことを考えて、自分(@matsu_vr)の過去ツイートで、日本語LLMのrinna/japanese-gpt-neox-3.6bをファインチューニングしたところ、思った以上に「俺っぽい」ツイートを生成することがで

                                                            自分の過去ツイートでrinna/japanese-gpt-neox-3.6bをfinetuningして「俺tter」を生成する|松xRのnote
                                                          • 独自のデータセットでGPTのような大規模言語モデルを簡単にファインチューニングできるライブラリ「Lit-Parrot」をGoogle Cloud Platformで使ってみた

                                                            特定の分野についての知識を増やす場合など、大規模言語モデルの出力を特定の方向に寄せる場合に利用されるのがファインチューニングで、これはモデルをゼロから構築するのに比べてはるかに少ないデータセット&はるかに少ないコストでトレーニングできる手法です。「Lit-Parrot」はファインチューニングを簡単に行えるようにしたライブラリとのことなので、実際に使ってどれくらい簡単なのかを試してみました。 lit-parrot/scripts at main · Lightning-AI/lit-parrot · GitHub https://github.com/Lightning-AI/lit-parrot How To Finetune GPT Like Large Language Models on a Custom Dataset - Lightning AI https://lightnin

                                                              独自のデータセットでGPTのような大規模言語モデルを簡単にファインチューニングできるライブラリ「Lit-Parrot」をGoogle Cloud Platformで使ってみた
                                                            • Prompt Engineering

                                                              Date: March 15, 2023 | Estimated Reading Time: 21 min | Author: Lilian Weng Prompt Engineering, also known as In-Context Prompting, refers to methods for how to communicate with LLM to steer its behavior for desired outcomes without updating the model weights. It is an empirical science and the effect of prompt engineering methods can vary a lot among models, thus requiring heavy experimentation a

                                                              • Weights & BiasesがLLMの開発手法にフォーカスしたホワイトペーパーの第2弾をリリース

                                                                Weights & BiasesがLLMの開発手法にフォーカスしたホワイトペーパーの第2弾をリリースW&B Fully Connected 2023カンファレンスとAI Expo2023秋にて配布予定 Weights & Biases Japan株式会社(以下、W&B Japan)は本日、大規模言語モデル(LLM)の開発手法にフォーカスするホワイトペーパーの第2弾となる「LLMファインチューニングとプロンプトエンジニアリングのベストプラクティス」を公開しました。LLM導入を検討している企業向けに、自社の保持するリソースやビジネスモデルに合わせたLLM開発手法を選択するための実践的ガイドとなっており、第1弾の「LLMをゼロからトレーニングするためのベストプラクティス」を補完する形で、既存のLLMモデルを拡張する形で自社用途に適応する手法について解説しています。本ホワイトペーパーの印刷済み冊子

                                                                  Weights & BiasesがLLMの開発手法にフォーカスしたホワイトペーパーの第2弾をリリース
                                                                • gpt2-japaneseの使い方 (2) - GPT-2のファインチューニング|npaka

                                                                  「gpt2-japanese」の「smallモデル」と「ファインチューニングのコード」が公開されたので、日本語によるGPT-2のファインチューニングを試してみました。 前回 (1) Google Colabのノートブックを開く。 (2) メニュー「編集→ノートブック→ハードウェアアクセラレータ」で「GPU」を選択。 (3) 以下のコマンドで、「gpt2-japanese」をインストール。 # gpt2-japaneseのインストール !git clone https://github.com/tanreinama/gpt2-japanese %cd gpt2-japanese !pip uninstall tensorflow -y !pip install -r requirements.txt2. モデルのダウンロード「smallモデル」を「gpt2-japanese」フォルダにダウン

                                                                    gpt2-japaneseの使い方 (2) - GPT-2のファインチューニング|npaka
                                                                  • 現在最強のText-to-3Dモデル"ProlificDreamer"をちゃんと理解する

                                                                    Text-to-3Dがアツい 最近かなりText-to-3Dモデルがアツくなってきました。昨年9月末に発表されたDreamFusionから急速に発展し、11月にはMagic3DやLatent-NeRF, 12月にはSJCやDream3D, 今年に入って3月にはFantasia3DやText2Room, 今月5月にはOpenAIのShap-E, Text2NeRFが発表されるなど、ちょうど1年ほど前のText-to-Imageモデルの盛り上がり方を彷彿とさせます。 ※この記事は2023/5/29に執筆したものです その中で、5/25に発表された ProlificDreamerが強すぎるというのがあります。 まずこれを見てください。一番右がProlificDreamerで生成された3Dモデルです。左3つの既存手法はどこかもっさりとしているのに対し、ProlificDreamerはまるでどの視点

                                                                      現在最強のText-to-3Dモデル"ProlificDreamer"をちゃんと理解する
                                                                    • Making LLMs even more accessible with bitsandbytes, 4-bit quantization and QLoRA

                                                                      LLMs are known to be large, and running or training them in consumer hardware is a huge challenge for users and accessibility. Our LLM.int8 blogpost showed how the techniques in the LLM.int8 paper were integrated in transformers using the bitsandbytes library. As we strive to make models even more accessible to anyone, we decided to collaborate with bitsandbytes again to allow users to run models

                                                                        Making LLMs even more accessible with bitsandbytes, 4-bit quantization and QLoRA
                                                                      • Code LoRA from Scratch - a Lightning Studio by sebastian

                                                                        LoRA (Low-Rank Adaptation) is a popular technique to finetune LLMs more efficiently. This Studio explains how LoRA works by coding it from scratch, which is an excellent exercise for looking under the hood of an algorithm.

                                                                          Code LoRA from Scratch - a Lightning Studio by sebastian
                                                                        • ABCIでMPT-7Bのファインチューニングを試す|shi3z

                                                                          前提知識MPT-7Bは最近発表された商用利用可能な大規模言語モデルで、LLaMAに匹敵する性能を持っていると言われています。 ABCIは経産省が管轄する日本在住者なら誰でも安価に使えるスーパーコンピュータです。 (ただし登録がいろいろ大変なので法人が前提です/利用料は最低20万円から) 対象読者行間が読める人。本文が間違っていても自分でソースコードに手を加えて修正できるスキルがある人。ABCIを使えるポジションの人。 僕も人間なのでミスはよくありますし、備忘録とこれからやろうとする人のために書いています。質問は受け付けません(自分でなんとかしてください)。 準備思ったより大変だったのでメモ まず、大前提として自宅のA6000x2のマシンでできるかと思ったら、ダメだった(12:57更新。ウソ:A6000x2でちゃんとできました)。 まず、MPTはTransformerなのでRWKVと違い、V

                                                                            ABCIでMPT-7Bのファインチューニングを試す|shi3z
                                                                          • GPT-3におけるFew-Shot・Zero-Shot

                                                                            膨大なパラメータを持つ言語モデルであるGPT-3は、学習後にパラメータを更新することなくタスクの情報と少量のデモンストレーションを入力することで、様々なNLPタスクをこなすことができます。論文のタイトルに含まれる「Few-Shot Learners」というフレーズもこれを意図したものだと言えます。 論文ではZero/One/Few-Shotという概念に触れられていますが、これらの説明が自分の理解していた内容と違っていました。結論から言えば、GPT-3におけるZero/One/Few-Shotと、一般に紹介されている(と思う)Zero/One/Few-Shot learningは大きく異なります。本稿ではGPT-3におけるこれらの説明と、他の資料での説明を比較し内容を整理します。 GPT-3によるマルチタスク処理の仕組み GPT-3がパラメータの更新なしに様々なタスクを処理する仕組み自体は、

                                                                              GPT-3におけるFew-Shot・Zero-Shot
                                                                            • Transformers from scratch | peterbloem.nl

                                                                              18 Aug 2019 code on github video lecture I will assume a basic understanding of neural networks and backpropagation. If you’d like to brush up, this lecture will give you the basics of neural networks and this one will explain how these principles are applied in modern deep learning systems. A working knowledge of Pytorch is required to understand the programming examples, but these can also be sa

                                                                              • 大規模言語モデルの学習コードまとめ|npaka

                                                                                大規模言語モデルの学習コードをまとめました。 1. Alpacaの学習コード「LLaMA 」を標準の「HuggingFace Transformers」の学習コードをでファインチューニングを行います。 「Transformers」はまだ「LLaMA」を公式サポートしてないため、特定のフォーク(68d640f7c368bcaaaecfc678f11908ebbd3d6176)を使用します。 以下は、FSDP full_shard モードで 4つの A100 80G GPU を搭載したマシン上のデータセットで「LLaMA-7B」をファインチューニングするコマンドです。 torchrun --nproc_per_node=4 --master_port=<your_random_port> train.py \ --model_name_or_path <your_path_to_hf_conv

                                                                                  大規模言語モデルの学習コードまとめ|npaka
                                                                                • 解説! ChatGPT API(gpt-3.5-turbo)の使い方とパラメーターについて | SOLUTION MAGAZINE

                                                                                  記事の概要 2023 年 3 月 2 日に一般公開された ChatGPT API(gpt-3.5-turbo-0301)を試してみました。 とても気軽に利用できますが、いくつか注意点もありますので合わせてご確認ください。 ChatGPT API のリクエストについて 以下のコマンドがリクエストの基本になります。 YOUR_API_KEY の箇所は、OpenAI Platform から取得した API Key(SECRET KEY)を差し替えます。 リクエスト例 curl https://api.openai.com/v1/chat/completions \ -H 'Content-Type: application/json' \ -H 'Authorization: Bearer YOUR_API_KEY' \ -d '{ "model": "gpt-3.5-turbo", "mess

                                                                                    解説! ChatGPT API(gpt-3.5-turbo)の使い方とパラメーターについて | SOLUTION MAGAZINE