xiangzeのブックマーク - はてなブックマーク

LLM のベンチマークまとめ｜npaka

「LLM」のベンチマークをまとめました。 1. マルチモーダルのベンチマークマルチモーダルのベンチマーク。 1-1. Heron VLM リーダーボード (wandb) 【日本語】「Japanese-Heron-Bench」「LLaVA-Bench-In-the-Wild (Japanese)」の総合評価。・Japanese-Heron-Bench (Turing) 21枚の画像に対して計102問の質問。日本に関する知識を要求。・LLaVA-Bench-In-the-Wild (Japanese) (Turing) 24枚の画像に対して計60問の質問。「LLaVA-Bench-In-the-Wild」の日本訳。

xiangze 2024/06/26

リンク

ローカルLLMの情報まとめ｜npaka

「ローカルLLM」の記事が増えてきたのでまとめました。「Llama 2」ベースのローカルLLMについては、以下でまとめています。

xiangze 2023/11/26

LLM

リンク

LLMのファインチューニングで何ができて何ができないのか｜npaka

LLMのファインチューニングで何ができて、何ができないのかまとめました。 1. LLMのファインチューニングLLMのファインチューニングの目的は、「特定のアプリケーションのニーズとデータに基づいて、モデルの出力の品質を向上させること」にあります。 OpenAIのドキュメントには、次のように記述されています。ファインチューニングは、プロンプトに収まるよりも多くの例で学習することで、Few-Shot学習を改善します。一度モデルをファインチューニングすれば、プロンプトにそれほど多くの例を提供する必要がなくなります。これにより、コストを削減し、低レイテンシのリクエストを可能にします。しかし実際には、それよりもかなり複雑です。 LLMには「大量のデータを投げれば自動的に解決する」ような創発的な特性があるため、ファインチューニングもそのように機能すると人々は考えていますが、必ずしもそうではありませ

xiangze 2023/08/30

LLM
ChatGPT

リンク

text-embedding-ada-002 の概要｜npaka

新しい埋め込みモデル「text-embedding-ada-002」についてまとめました。 1. text-embedding-ada-002OpenAIから新しい埋め込みモデル「text-embedding-ada-002」がリリースされました。性能が大幅に向上し、以前の最も高性能なモデル「davinci」よりも多くのタスクで上回っています。adaの費用はdavinciの0.2%になります。 2. 埋め込み「埋め込み」は、概念を数列に変換したもので、コンピュータがそれらの概念間の関係を理解しやすくするための使います。パーソナライズ、レコメンド、検索などに使うことができます。「OpenAI API」で埋め込みを取得するコードは、次のとおりです。 import openai response = openai.Embedding.create( input="porcine pals sa

xiangze 2023/07/12

リンク

Transformers の generate()のテキスト生成戦略｜npaka

以下の記事が面白かったので、簡単にまとめました。・Text generation strategies 1. generate() のテキスト生成戦略「テキスト生成」は、自由形式のテキスト生成、要約、翻訳など、多くの NLP タスクに不可欠です。また、音声からのテキスト変換やビジョンからのテキスト変換など、テキスト出力を持つマルチモーダルなアプリケーションでも役割を果たします。テキスト生成できるモデルには、「GPT2」「XLNet」「OpenAI GPT」「CTRL」「Transf ormerXL」「XLM」「Bart」「T5」「GIT」「Whisper」などがあります。 generate() を使用して様々なタスクのテキスト生成を行う例を、以下で確認できます。・テキスト要約・画像キャプショニング・音声トランスクリプション generate() への入力はモデルのモダリティに依存し

xiangze 2023/06/17

ChatGPT
LLM

リンク

24GB GPU で 20B LLM の RLHF ファインチューニング｜npaka

以下の記事が面白かったので、軽くまとめました。・Fine-tuning 20B LLMs with RLHF on a 24GB consumer GPU 1. LLM と RLHF「RLHF」と組み合わせた「LLM」は、ChatGPTなどの非常に強力なAIシステムを構築するための次のアプローチです。「RLHF」でLLMを学習するには、通常、次の3つのステップが必要です。 (1) 事前学習モデルを教師あり学習でファインチューニング。 (2) 報酬モデルの学習。 (3) 教師あり学習でファインチューニングしたモデルを、強化学習でさらにファインチューニング。 2. TRL「trl」は、LLMを誰でも簡単に強化学習でファインチューニングできることを目的としたライブラリです。これを使用して、映画の肯定的なレビューを生成するように調整したり、より毒性がないものに調整したりすることができます。強化

xiangze 2023/06/04

LLM

リンク

GPT-3 の分類のファインチューニングを試す｜npaka

「GPT-3」の分類のファインチューニングを試したのでまとめました。 1. OpenAI API「OpenAI API」は、OpenAIの最新の深層学習モデルにアクセスすることができるクラウドサービスです。「GPT-3」を利用するには「OpenAI API」経由でアクセスする必要があります。 2. 利用料金「GPT-3」にはモデルが複数あり、性能と価格が異なります。Ada は最速のモデルで、Davinci は最も精度が高いモデルになります。価格は 1,000トークン単位です。「ファインチューニング」には、TRAININGとUSAGEという2つの価格設定があります。TRAININGのトークン数は、データセット内のトークン数と、エポック数(デフォルト4)によって決まります。 TRAININGのトークン数 = データセット内のトークン数 x エポック数 USAGEのトークン数 = プロンプトの

xiangze 2022/12/22

リンク

Google Colab ではじめる Textual Inversion｜npaka

今回は、「Diffusers」の「textual_inversion.py」を使います。書くべきコード量も、GPUのメモリ消費量も少なくて良い感じです。 2. ライセンスの確認以下のモデルカードにアクセスして、ライセンスを確認し、「Access Repository」を押し、「Hugging Face」にログインして（アカウントがない場合は作成）、同意します。 3. 学習用画像の準備ファインチューニングには、3〜5枚の学習用画像が必要です。・画像サイズは512×512。・Exifで回転してない画像。・最良の結果を得るには約 3～5個の画像。使用する画像の枚数が多すぎると、モデルが収束しない場合がある。・画像には共通のコンテキスト情報が含まれている必要がある。・オブジェクト : 同じオブジェクトを異なる視点から写す。・画風 : 配色とアートスタイルを一貫させる。 4. ファイ

xiangze 2022/12/18

リンク

Google Colab ではじめる VOICEVOX｜npaka

「Google Colab」で「VOICEVOX」による音声合成を試してみたので、まとめました。・VOICEVOX v11.4 1. VOICEVOX「VOICEVOX」は、無料で使えるテキスト読み上げソフトウェアです。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) Colabで新規ノートブックを作成。 (2) パッケージのクローンとセットアップ。 # パッケージのクローンとセットアップ !git clone https://github.com/VOICEVOX/voicevox_core -b 0.11.4 %cd voicevox_core !python configure.py --use_gpu --voicevox_version 0.11.4以下のように、ライブラリ選択が表示されたら「libcore_cpu_x64.so」(以下では2)を選択

xiangze 2022/10/17

リンク

DreamBooth Stable Diffusion を試す｜npaka

愛犬の合成画像を生成できる画像生成AI「DreamBooth」の「Stable Diffusion」版を作ってる人がいたので、愛猫の合成画像の生成に挑戦してみました。・DreamBooth Stable Diffusion GPUのメモリは32GB以上必要です。 1. DreamBooth「DreamBooth」は、数枚の被写体画像 (例 : 特定の犬) と対応するクラス名 (例 : 犬) を与えてファインチューニングすることで、Text-to-Imageモデルに新たな被写体を学習させる手法です。愛犬の合成画像を生成できる画像生成AIとして話題になりました。オリジナルの「DreamBooth」は「Imagen」をベースにしていますが、この実装は「Textual Inversion」をベースにしています。 2. DreamBooth Stable Diffusion 「DreamBoot

xiangze 2022/09/29

リンク

画像1枚からVTuberになる方法｜npaka

2. はじめに過去2年間、私はバーチャルYouTuber（VTuber）に夢中になりました。これらはアニメのキャラクターであり、実際の人間によって演じられ、声を出して、動画コンテンツを提供したり、YouTubeでライブ配信を行ったりします。それらが何であるかを知ってもらうには、実際に見てもらうのが一番です。以下は、私のお気に入りのVTubersの1人「白上フブキ」になります。 VTubersはエンターテイナーの新しい分野を形成し、日本で注目を集めています。BBCによるこの記事によると、それらを中心に新しい産業が生まれており、企業は数百万ドルを投資することを計画しているとのことです。一方、私は、特にアニメ関連のものに関しての、ディープラーニングの最近の進歩にも魅了されています。2017年、熱心な研究者チームが「GAN」の訓練に成功し、非常に高品質のアニメキャラクターの画像を生成しました。最

xiangze 2022/09/18

リンク

Google Colab ではじめる Stable Diffusion v1.4｜npaka

2. ライセンスの確認以下のモデルカードにアクセスして、ライセンスを確認し、「Access Repository」を押し、「Hugging Face」にログインして（アカウントがない場合は作成）、同意します。 4. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) メニュー「編集→ノートブックの設定」で、「ハードウェアアクセラレータ」に「GPU」を選択。 (2) 「Stable Diffusion」のインストール。 # パッケージのインストール !pip install diffusers==0.3.0 transf ormers scipy ftfy(3) トークン変数の準備。以下の「<HugginFace Hubのトークン>」の部分に、先程取得したHuggingFace Hubのトークンをコピー&ペーストします。 # トークン変数の準備 YOUR_TOKEN="<H

xiangze 2022/08/23

リンク

TensorFlow Liteのカスタムオペレーション｜npaka

1. はじめに「TensorFlow Lite」は、TensorFlowのオペレーションをすべてサポートしているわけではありません。モデルにサポートされていないオペレーションが含まれている時は、ユーザー実装のC/C++コードを「カスタムオペレーション」として使用できます。 (情報源) 2. カスタムオペレーションの使用手順カスタムオペレーションの使用手順は次の通りです。 (1)グラフ内で正しい名前のオペレーションを参照していることを確認。 (2)「カスタムオペレーション」を「TensorFlow Lite」に登録。ランタイムがグラフ内のオペレーションをカスタムオペレーションにマップできるようになります。 (3)オペレーションの正確さとパフォーマンスをプロファイリング。カスタムオペレーションのみをテストする場合は、カスタムオペレーションのみで、「benchmark_model」を使用して

xiangze 2021/01/24

リンク

はてなブックマーク

タグ

ブックマーク / note.com/npaka (13)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス