タグ

ブックマーク / note.com/npaka (115)

  • Luma Dream Machine プロンプトガイド|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・FAQ and Prompt Guide: Luma Dream Machine 1. Image to Video のプロンプトガイド・生成ページの画像アイコンをクリックして JPG、JPEG、PNG画像をアップロードします。シーンを説明するプロンプトを提供することもできます。 ・「Enhance Prompt」を有効にすると、シーンで何が起きてほしいかを説明するだけで済みます。 <image of a car> + “a red car driving on a road” ・希望する出力が得られない場合は、「Enhance prompt」なしで試すことができます。この場合、画像とシーンで何が起きてほしいかを説明する必要があります。 強化されていないプロンプトでは、モーションがまったく見られないか、モーションがほとんど見られなくなる可

    Luma Dream Machine プロンプトガイド|npaka
  • Apple の Private Cloud Compute の概要|npaka

    Apple の「Private Cloud Compute」の概要をまとめました。 ・Private Cloud Compute: A new frontier for AI privacy in the cloud 1. Private Cloud Compute「Apple Intelligence」は、iPhoneiPadMacに強力な生成モデルをもたらすパーソナルインテリジェンスシステムです。このシステムで複雑な推論が必要な場合のために、AppleではプライベートAI処理専用に設計されたクラウドインテリジェンスシステム「Private Cloud Compute」(PCC) を開発しました。PCCは、Appleデバイスのセキュリティとプライバシーを初めてクラウドに拡張し、PCCに送信されたユーザーの個人データがユーザー以外の誰にもアクセスできないようにします。Appleでさえも

    Apple の Private Cloud Compute の概要|npaka
  • 音楽生成AI のリリース年表|npaka

    AI 🤝 Music Suno can now sing! Our new model generates music with vocals, and you can try it now on Diśčòrd. See below for some early examples and an invite link to our open beta: pic.twitter.com/CjjfYM2YRZ — Suno (@suno_ai_) July 21, 2023

    音楽生成AI のリリース年表|npaka
    yuiseki
    yuiseki 2024/06/01
  • Gemini API で 動画の質問応答 を試す|npaka

    「Gemini API」で動画の質問応答を試したので、まとめました。 1. Gemini 1.5 Pro の 動画データ入力「Gemini 1.5 Pro」で動画データでの入力が可能になりました。 サポートしているファイル形式は、次のとおりです。 ・MP4 : video/mp4 ・MPEG : video/mpeg ・MOV : video/mov ・AVI : video/avi ・FLV : video/x-flv ・MPG : video/mpg ・WebM : video/WebM ・WMV : video/WMV ・3GPP : video/3gpp 「File API」は動画を1フレーム/秒(FPS)でサンプリングしますが、最適な推論品質を提供するために変更される可能性があります。解像度や品質に関係なく、個々の画像は258トークンを使用します。 2. 動画の質問応答動画の質問

    Gemini API で 動画の質問応答 を試す|npaka
    yuiseki
    yuiseki 2024/05/27
  • LangChain v0.2 の パッケージ構成|npaka

    「LangChain v0.2」のパッケージ構成についてまとめました。 1. LangChain v0.2 の パッケージ構成「LangChain」のフレームワークは、複数のパッケージで構成されています。 2. langchain-core「langchain-core」には、様々なコンポーネントの基抽象化と、それらを一緒に構成する方法が含まれています。「LLM」「VectorStore」「Retriever」 などのコアコンポーネントのインターフェイスはここで定義されています。サードパーティの統合は定義されていません。依存関係は意図的に非常に軽量に保たれています。 3. langchain「langchain」には、アプリケーションの「認知アーキテクチャ」を構成する「Chain」「Agent」「Retrieval strategies」が含まれています。 これらはサードパーティの統合で

    LangChain v0.2 の パッケージ構成|npaka
    yuiseki
    yuiseki 2024/05/23
  • PaliGemma の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・PaliGemma – Google's Cutting-Edge Open Vision Language Model 1. PaliGemma「PaliGemma」は、画像エンコーダーとしての「SigLIP-So400m」とテキスト デコーダーとしての「Gemma-2B」で構成されるアーキテクチャを備えたビジョン言語モデルです。「SigLIP」は画像と文字の両方を理解できる最先端のモデルです。「CLIP」と同様に、共同で学習された画像とテキストのエンコーダーで構成されます。「PaLI-3」と同様に、結合された「PaliGemma」モデルは画像とテキストのデータで事前学習されており、キャプションや参照セグメンテーションなどの下流タスクで簡単にファインチューニングできます。「Gemma」は、テキスト生成のためのデコーダー専用モデルです。リ

    PaliGemma の概要|npaka
    yuiseki
    yuiseki 2024/05/17
  • GPT-4o の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

    GPT-4o の概要|npaka
  • Dify の ワークフロー の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Workflow - Dify 1. ワークフロー1-1. ワークフロー「ワークフロー」は、複雑なタスクを小さな「ノード」に分割することで、LLMアプリケーションのモデル推論への依存を減らし、システムの説明可能性、安定性、耐障害性を向上させます。 「ワークフロー」の種類は、次のとおりです。 ・Chatflow :  顧客サービス、セマンティック検索など、応答作成に複数ステップのロジックを必要とする会話シナリオ用 ・Workflow : 高品質な翻訳、データ分析、コンテンツ作成、電子メールの自動化など、自動化・バッチ処理シナリオ用 1-2. Chatflow自然言語入力におけるユーザー意図認識の複雑さに対処するため、「質問分類」「質問書き換え」「サブ質問分割」などの問題理解ノードを提供します。さらに、LLMに外部環境との対話機能、すなわち「

    Dify の ワークフロー の概要|npaka
  • Weave と Elyza-tasks-100 で ローカルLLMを評価する|npaka

    「Weave」と「Elyza-tasks-100」で ローカルLLMの評価を試したので、まとめました。 1. Weave と Elyza-tasks-100「Weave」は、LLMアプリケーションの記録、実験、評価のためのツールです。「Weights & Biases」が提供する機能の1つになります。「評価関数」と「評価データセット」を用意するだけで、LLMの評価に必要な面倒な処理 (記録・集計など) をすべて肩代わりしてくれます。 「Elyza-tasks-100」はElyzaが提供する指示チューニングモデル用の評価用データセットです。問題固有の採点基準の情報も含まれています。 2. 評価データセットの準備評価データセットの準備手順は、次のとおりです。 (1) 「Elyza-tasks-100」から「test.csv」をダウンロード。 (2) 以下のプロンプトテンプレートを作成。 ・pr

    Weave と Elyza-tasks-100 で ローカルLLMを評価する|npaka
  • mergekit-evolve のパラメータまとめ|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・mergekit/docs/evolve.md 1. mergekit-evolve「mergekit-evolve」は、進化的アルゴリズム (CMA-ES) を使用して、モデル メトリックに対してマージのパラメータを最適化するスクリプトです。これは、「SakanaAI」の「Evolutionary Optimization of Model Merging Recipes」、特にパラメータ空間アプローチからインスピレーションを得ています。「mergekit-evolve」は、EleutherAIの「Language Model Evaluation Harness」を使用してスコアリング関数を定義および評価を行います。このスクリプトは、単一ノードまたはRayクラスター上で実行されるように設定されており、特定のコンピューティング構成に応じ

    mergekit-evolve のパラメータまとめ|npaka
    yuiseki
    yuiseki 2024/04/29
  • mergekit-evolve による 進化的モデルマージ|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Evolutionary Model Merging For All 1. 進化的モデルマージ「Sakana.ai」は約1か月前、「進化的モデルマージ」に関する論文を発表し、大きな話題を呼びました。 「進化的モデルマージ」を使用すると、マージで特定のコンピテンシーや資質をターゲットにすることができます。これがないと、モデルマージは手動の探索プロセスになります。数十回のマージを試し、それらを手動で評価し、マージパラメータが最終モデルの性能にどのように関連するか頭の中で考え出そうとすることになります。「進化的モデルマージ」を使用すると、どのような性質を持たせたいかを指定でき、最適化がそれを処理します。 「mergekit」では、この「進化的モデルマージ」を利用できます。 2. ハードウェア要件7Bモデル の場合は 24GB のVRAMで十分で

    mergekit-evolve による 進化的モデルマージ|npaka
    yuiseki
    yuiseki 2024/04/25
  • Google Colab で RecurrentGemma を試す|npaka

    Google Colab」で「RecurrentGemma」を試したので、まとめました。 1. RecurrentGemma「RecurrentGemma」は、Google で開発された新しいリカレントアーキテクチャに基づいて構築されたオープンモデルです。 事前学習済みモデルと指示チューニングモデルの両方が英語で利用可能です。 ・google/recurrentgemma-2b-itgoogle/recurrentgemma-2b 「Gemma」と同様、質問応答、要約、推論などのさまざまなテキスト生成タスクに適しています。新しいアーキテクチャにより、「Gemma」よりも必要なメモリが少なく、長いシーケンスを生成する際に高速な推論を実現します。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip

    Google Colab で RecurrentGemma を試す|npaka
    yuiseki
    yuiseki 2024/04/11
  • MT-Bench による日本語LLMの評価|npaka

    「MT-Bench」による日語LLMの評価の手順をまとめました。 【注意】Google Colab Pro/Pro+ のA100で動作確認しています。 前回 1. Japanese MT-Bench「LMSys」の「MT-Bench」の質問は英語のため、英語による指示の効き目の評価しかできません。そこで「Stability AI」が提供する「Japanese MT-Bench」の質問ファイルと参照回答ファイルを使います。 ・Japanese MT-Bench 今回は「MT-Bench」体として(「Stability-AI/FastChat」ではなく)「lm-sys/FastChat」を使っています。 2. Japanese MT-Benchのデータの準備「Japanese MT-Bench」のデータの準備の手順は、次のとおりです。 (1) 以下のフォルダ構成を準備。 「gpt-4.js

    MT-Bench による日本語LLMの評価|npaka
    yuiseki
    yuiseki 2024/04/10
  • Google Colab で trlX による大規模言語モデルのファインチューニングを試す|npaka

    Google Colab」で「trlX」による大規模言語モデルのファインチューニングを試したので、まとめました。 1. trlX「trlX」 (Transformer Reinforcement Learning X)は、「報酬関数」または「報酬ラベル付きデータセット」のいずれかを使用して、強化学習で大規模言語モデル (LLM) をファインチューニングするために分散学習フレームワークです。 「facebook/opt-6.7b」「EleutherAI/gpt-neox-20b」など、最大200億のパラメータの「causal」および「T5」ベースの言語モデルをファインチューニングできます。 現在、次の強化学習アルゴリズムが実装されています。 ・PPO (Proximal Policy Optimization) ・ILQL (Implicit Language Q-Learning) 2.

    Google Colab で trlX による大規模言語モデルのファインチューニングを試す|npaka
    yuiseki
    yuiseki 2024/04/10
  • Google Colab + trlx で OpenCALM のRLHFファインチューニングを練習する|npaka

    Google Colab」で「OpenCALM」のRLHFファインチューニングを練習したので、記録を残します。 ・trlx v0.6.0 【注意】「Google Colab Pro/Pro+」で使えるA100が必要です。 1. trlx「trlx」は、RLHFによる言語モデルの分散学習のリポジトリです。rinnaの強化学習も「trlx」で学習しています。 学習の流れは、次のとおりです。 (1) 「hh-rlhf-49k-ja」のinstructionの先頭10文字をプロンプトとして、「open-calm-large」でテキスト生成。 (2) そのテキストに対して「distilbert-base-multilingual-cased-sentiments-student」で評価。 (3) その評価を高くしようと強化学習でファインチューニング。 3. Colabでの実行Colabでの実行手順

    Google Colab + trlx で OpenCALM のRLHFファインチューニングを練習する|npaka
    yuiseki
    yuiseki 2024/04/10
  • Command R の 概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Command R: Retrieval-Augmented Generation at Production Scale 1. Command R「Command R」は、「RAG」や「Tool」などの長いコンテキストタスク向けに最適化されたLLMです。CohereのEmbeddingおよびRerankと連携して動作するように設計されており、RAGアプリケーションに最高クラスの統合を提供し、エンタープライズユース ケースで優れています。 特徴は、次のとおりです。 ・RAGとToolの使用に関する高い精度 ・低遅延、高スループット ・128Kコンテキスト長、価格が安い ・10の主要言語に対応 (日語含む) ・研究・評価のためにHuggingFaceでウェイトを公開 「Command R」は、Cohere のホストAPIですぐに利用でき

    Command R の 概要|npaka
    yuiseki
    yuiseki 2024/04/05
  • Google Colab で Mistral-7B-v0.2 を試す|npaka

    Google Colab」で「Mistral AI」の「Mistral-7B-v0.2」を試したので、まとめました。 1. Mistral-7B-v0.2「Mistral-7B-v0.2」は、「Mistral AI-7B-v0.1」の指示チューニングの改良版です。 2. Mistral-7B-v0.2のモデル「Mistral-7B-v0.2」は、現在1つのモデルのみが提供されています。 ・mistralai/Mistral-7B-Instruct-v0.2 3. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) Colabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」を選択。 (2) パッケージのインストール。 # パッケージのインストール !pip install transformers sentencepiece accelerate

    Google Colab で Mistral-7B-v0.2 を試す|npaka
    yuiseki
    yuiseki 2024/04/01
  • GaLore - 家庭用ハードウェアでの大規模モデルの学習|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・GaLore: Advancing Large Model Training on Consumer-grade Hardware 1. GaLore「GaLore」は、「NVIDIA RTX 4090」などの家庭用GPU上で、Llamaなどの最大7Bパラメータを持つモデルの学習を容易にします。これは、学習プロセス中のオプティマイザの状態と勾配に従来関連付けられていたメモリ要件を大幅に削減することによって実現されます。 2. オプティマイザ状態でのメモリ効率オプティマイザ状態は、特にAdamのような適応最適化アルゴリズムでは、モデルの学習中のメモリフットプリントの重要な部分を占めます。「GaLore」は、オプティマイザによって処理される前に、勾配を低次元の部分空間に投影することでこの問題に対処します。これにより、これらの状態を保存するため

    GaLore - 家庭用ハードウェアでの大規模モデルの学習|npaka
    yuiseki
    yuiseki 2024/03/22
  • LLM のデータセットまとめ|npaka

    LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh) ・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 1-2. Code・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 2. SFTデータセット2-1. Instruction・ichikara-instruction (ja) ・ich

    LLM のデータセットまとめ|npaka
    yuiseki
    yuiseki 2024/03/14
  • LlamaIndex の埋め込みモデルを Multilingual-E5-large に切り替える|npaka

    2. ドキュメントの準備はじめに、チャットボットに教える専門知識を記述したドキュメントを用意します。 今回は、マンガペディアの「ぼっち・ざ・ろっく!」のあらすじのドキュメントを用意しました。 ・bocchi.txt 3. Colabでの実行Google Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install llama-index !pip install sentence_transformers(2) 環境変数の準備。 以下のコードの <OpenAI_APIのトークン> にはOpenAI APIのトークンを指定します。(有料) import os os.environ["OPENAI_API_KEY"] = "<OpenAI_APIのトークン>"(3) ログレベルの設定。 import logging im

    LlamaIndex の埋め込みモデルを Multilingual-E5-large に切り替える|npaka
    yuiseki
    yuiseki 2024/03/06