タグ

ブックマーク / note.com/npaka (26)

  • Luma Dream Machine プロンプトガイド|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・FAQ and Prompt Guide: Luma Dream Machine 1. Image to Video のプロンプトガイド・生成ページの画像アイコンをクリックして JPG、JPEG、PNG画像をアップロードします。シーンを説明するプロンプトを提供することもできます。 ・「Enhance Prompt」を有効にすると、シーンで何が起きてほしいかを説明するだけで済みます。 <image of a car> + “a red car driving on a road” ・希望する出力が得られない場合は、「Enhance prompt」なしで試すことができます。この場合、画像とシーンで何が起きてほしいかを説明する必要があります。 強化されていないプロンプトでは、モーションがまったく見られないか、モーションがほとんど見られなくなる可

    Luma Dream Machine プロンプトガイド|npaka
  • iOS・Android の ローカルLLM実行環境まとめ|npaka

    iOS・Android の ローカルLLMの実行環境をまとめました。 1. iOS1-1. Llama.cpp (gguf)「Llama.cpp」の「example/llama.swiftui」で、iOSでggufを実行するプロジェクトが提供されています。モデルはHuggingFaceの「TheBloke」「mmnga」などで数多く提供されています。ただし、メモリ制限のため小サイズのモデルに限られます。 1-2. MLX「mlx-swift-examples」の「LLMEval」に、iOSでMLXを実行するプロジェクトが含まれています。モデルはHuggingFaceの「MLX Community」などで数多く提供されています。ただし、メモリ制限のため小サイズのモデルに限られます。 1-3. TensorFlow Lite (tflite)「MediaPipe」の「LLM Inference

    iOS・Android の ローカルLLM実行環境まとめ|npaka
  • Command R の 概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Command R: Retrieval-Augmented Generation at Production Scale 1. Command R「Command R」は、「RAG」や「Tool」などの長いコンテキストタスク向けに最適化されたLLMです。CohereのEmbeddingおよびRerankと連携して動作するように設計されており、RAGアプリケーションに最高クラスの統合を提供し、エンタープライズユース ケースで優れています。 特徴は、次のとおりです。 ・RAGとToolの使用に関する高い精度 ・低遅延、高スループット ・128Kコンテキスト長、価格が安い ・10の主要言語に対応 (日語含む) ・研究・評価のためにHuggingFaceでウェイトを公開 「Command R」は、Cohere のホストAPIですぐに利用でき

    Command R の 概要|npaka
  • LangChain のための wandb 入門|npaka

    この入門記事は、「Weights & Biases」のご支援により提供されています。 1. wandb「wandb」 (Weights & Biases) は、機械学習の実験管理とモデルのパフォーマンス追跡に特化したツールです。 「wandb」の主な機能は、次のとおりです。 ・トレース : 実験のパラメータ、評価指標、出力を自動的にログに記録します。これにより、異なる実験間での比較や分析が容易になります。 ・視覚化: 学習中の評価ををリアルタイムで視覚化します。これにより、モデルのパフォーマンスを直感的に理解しやすくなります。 ・ハイパーパラメータの最適化 : 異なるハイパーパラメータのセットを試して、最適な組み合わせを見つけるのに役立ちます。 ・チームコラボレーション : チームメンバー間で実験のデータを共有し、コラボレーションを促進します。 ・統合 : 主要な機械学習フレームワーク (

    LangChain のための wandb 入門|npaka
  • HuggingFace での Flash Attention 2 の使い方|npaka

    以下の記事が面白かったので、かるくまとめました。 ・Efficient Inference on a Single GPU - Flash Attention 2 【注意】 この機能は実験的なものであり、将来のバージョンでは大幅に変更される可能性があります。「Flash Attendant 2 API」は近い将来「BetterTransformer API」に移行する可能性があります。 1. Flash Attention 2「Flash Attendant 2」は、Transformerベースのモデルの学習と推論の速度を大幅に高速化できます。 リポジトリのインストールガイドに従って、「Flash Attendant 2」をインストールしてください。これをインストールすることで、HuggingFaceの「Flash Attention 2」の機能も利用できるようになります。 次のモデルは

    HuggingFace での Flash Attention 2 の使い方|npaka
  • OpenAI の Assistant Playground の Code Interpreter を試す|npaka

    OpenAI」の 「Assistant Playground」の「Code Interpreter」を試したので、まとめました。 前回 1. Code Interpreter「Code Interpreter」は、アシスタントがサンドボックス実行環境でPythonコードを作成および実行できるツールです。さまざまなデータと形式を含むファイルを処理し、データとグラフの画像を含むファイルを生成できます。 2. アシスタントの作成アシスタントの作成手順は、次のとおりです。 (1)  「Playground」を開き、左端の「Playgroundアイコン」とタイトル横の「Assistants」を選択し、「+Create」を押す。 (2) WebUIで以下のように設定して、SAVEボタンを押す。 ・Name : 数学の家庭教師ボット ・Instructions : あなたは数学の個人家庭教師です。数学

    OpenAI の Assistant Playground の Code Interpreter を試す|npaka
  • OpenAI API で提供されている モデル まとめ|npaka

    OpenAI API」で提供されている「モデル」をまとめました。 ・Model - OpenAI API 1. OpenAI API で提供されている モデル「OpenAI API」で提供されている「モデル」は、次のとおりです。 ・GPT-4o : GPT-4よりも安価で高速な、最も先進的なマルチモーダルフラッグシップモデル ・GPT-4 : GPT-3.5を改善し、自然言語やコードを理解し、生成できるモデル ・GPT-3.5 : GPT-3を改善し、自然言語やコードを理解し、生成できるモデル ・DALL-E : 自然言語から画像を生成および編集できるモデル ・TTS : テキストを自然な音声に変換できるモデル ・Whisper : 音声をテキストに変換できるモデル ・Embedding : テキストをベクトル表現に変換できるモデル ・Moderation : テキストが機密または安全か

    OpenAI API で提供されている モデル まとめ|npaka
  • OpenAI Python API Library v1.0 入門|npaka

    OpenAI Python API Library」のインタフェースが一新されたので、かるくまとめ直しました。 ・OpenAI Python API library v1.1.1 1. OpenAI Python API LibraryPythonで「OpenAI API」にアクセスするには「OpenAI Python API Library」を使います。 2. セットアップColabでのセットアップ手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install openai(2) 環境変数の準備。 以下のコードの <OpenAI_APIキー> にはOpenAIのサイトで取得できるAPIキーを指定します。(有料) import os os.environ["OPENAI_API_KEY"] = "<OpenAI_APIキー>"(3)

    OpenAI Python API Library v1.0 入門|npaka
  • OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka

    以下の記事が面白かったので、かるくまとめました。 ・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。 開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造

    OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka
  • Streamlit 入門|npaka

    Streamlit」の使いはじめ方をまとめました。 1. StreamlitStreamlit」は、機械学習およびデータサイエンスのためのWebアプリケーションフレームを簡単に作成して共有できるPythonライブラリです。 2. HelloWorldの作成HelloWorldの作成手順は、次のとおりです。 (1) Pythonの仮想環境の準備。 (2) パッケージのインストール。 $ pip install streamlit(3) helloworld.pyの作成。 ・helloworld.py import streamlit as st st.text("Hello World!")(4) helloworld.pyの実行。 $ streamlit run helloworld.pyブラウザが自動的に開いて、Webアプリケーションが表示されます。 3. 風船を飛ばすボタンの作成あ

    Streamlit 入門|npaka
  • LLMのファインチューニング で 何ができて 何ができないのか|npaka

    LLMのファインチューニングで何ができて、何ができないのかまとめました。 1. LLMのファインチューニングLLMのファインチューニングの目的は、「特定のアプリケーションのニーズとデータに基づいて、モデルの出力の品質を向上させること」にあります。 OpenAIのドキュメントには、次のように記述されています。 ファインチューニングは、プロンプトに収まるよりも多くの例で学習することで、Few-Shot学習を改善します。一度モデルをファインチューニングすれば、プロンプトにそれほど多くの例を提供する必要がなくなります。これにより、コストを削減し、低レイテンシのリクエストを可能にします。 しかし実際には、それよりもかなり複雑です。 LLMには「大量のデータを投げれば自動的に解決する」ような創発的な特性があるため、ファインチューニングもそのように機能すると人々は考えていますが、必ずしもそうではありませ

    LLMのファインチューニング で 何ができて 何ができないのか|npaka
  • OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留を試す|npaka

    OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留を試したのでまとめました。 1. GPT-4 から GPT-3.5 への蒸留「LlamaIndex」で、OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留のColabが提供されてたので、それをベースに独自データで試してみました。 具体的には、「GPT-4」で学習データを生成し、「GPT-3.5」でファインチューニングすることで、「GPT-3.5」に「GPT-4」相当の知識を習得させます。 We successfully made gpt-3.5-turbo output GPT-4 quality responses in an e2e RAG system 🔥 Stack: automated training dataset creation in @ll

    OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留を試す|npaka
  • OpenAI API の ファインチューニングガイド|npaka

    1. ファインチューニングの利点ファインチューニングの利点は、次のとおりです。 (1) プロンプトよりも高品質な応答 (2) プロンプトに収まりきらないより多くの例の適用 (3) プロンプトの短縮によるトークン数 (コスト) の節約 (4) プロンプトの短縮による処理時間の短縮 モデルは膨大な量のテキストで事前学習されており、このモデルを効果的に利用するため、プロンプトに手順や応答の例を指定する手法が使われます。この例を使用してタスクの実行方法を示すことを「Few-Shot」と呼びます。 ファインチューニングで、プロンプトに収まりきらないより多くの例で学習することにより、さまざまなタスクでより良い結果を達成できるようになります。プロンプトに多くの例を指定する必要はなくなります。これによりトークン (コスト) が節約され、処理時間も短縮されます。 2. ファインチューニングの使用料金ファイン

    OpenAI API の ファインチューニングガイド|npaka
  • Google Colab + trl で LINE の japanese-large-lm のQLoRA ファインチューニングを試す|npaka

    Google Colab」+「trl」で LINEの「japanese-large-lm」のQLoRA ファインチューニングを試したので、まとめました。 1. trl と ござるデータセット「trl」の「SFTTrainer」と、「ござるデータセット」(bbz662bbz/databricks-dolly-15k-ja-gozarinnemon) を使ってQLoRAファインチューニングに挑戦してみます。 「trl」は「artidoro/qlora」と比べて設定が多くて大変ですが、SFT後の「RLHF」や「DPO」などの追加学習も可能です。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install -q accelerate==0.21.0 peft==0.4.0 bitsandbytes

    Google Colab + trl で LINE の japanese-large-lm のQLoRA ファインチューニングを試す|npaka
  • Rinna-4Bのマルチモーダル会話モデルを試す|npaka

    「Rinna-4B」のマルチモーダル会話モデルを試したのでまとめました。 1. Rinna-4Bのマルチモーダル会話モデル「rinna/bilingual-gpt-neox-4b-minigpt4」は、3.8Bパラメータの「GPT-NeoX」と「BLIP-2」を組み合わせて作成した、英日バイリンガルのマルチモーダル会話モデルです。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) メニュー「編集→ノートブックの設定」で、「ハードウェアアクセラレータ」で「GPU」を選択。 (2) パッケージのインストール。 # パッケージのインストール !git clone https://github.com/Vision-CAIR/MiniGPT-4.git %cd ./MiniGPT-4 !git checkout 22d8888 # latest version as of

    Rinna-4Bのマルチモーダル会話モデルを試す|npaka
  • Stable Diffusion web UI (AUTOMATIC1111) の使い方|npaka

    Stable Diffusion web UI (AUTOMATIC1111) の使い方をまとめました。 ・Windows 11 ・Stable Diffusion WebUI Docker v1.0.2 ・AUTOMATIC1111 1. AUTOMATIC1111「AUTIMATIC1111」は、「Stable Diffusion」のフォークの1つで、最も豊富な機能が提供されているフォークです。 主な特徴は、次のとおりです。 ・Text-to-Image : 多くのサンプラーとネガティブプロンプトが利用可能。 ・Image-to-Image : マスキング、トリミング、インペインティング、アウトペインティング、バリエーションが利用可能 ・GFPGAN、RealESRGAN、LDSR、CodeFormer ・ループバック、プロンプト重み付け、プロンプトマトリックス、X/Yプロット ・生成

    Stable Diffusion web UI (AUTOMATIC1111) の使い方|npaka
  • Llama.cpp で Llama 2 を試す|npaka

    「Llama.cpp」で「Llama 2」を試したので、まとめました。 ・macOS 13.4.1 ・Windows 11 前回 1. Llama.cpp「Llama.cpp」はC言語で記述されたLLMのランタイムです。「Llama.cpp」の主な目標は、MacBookで4bit量子化を使用してLLAMAモデルを実行することです。 特徴は、次のとおりです。 ・依存関係のないプレーンなC/C++実装 ・Appleシリコンファースト (ARM NEON、Accelerate、Metalを介して最適化) ・x86アーキテクチャのAVX、AVX2、AVX512のサポート ・Mixed F16/F32精度 ・4bit、5bit、8bit量子化サポート ・BLASでOpenBLAS/Apple BLAS/ARM Performance Lib/ATLAS/BLIS/Intel MKL/NVHPC/AC

    Llama.cpp で Llama 2 を試す|npaka
  • GitHub Copilot Labs の使い方|npaka

    1. GitHub Copilot Labs「GitHub Copilot Labs」は、「GitHub Copilot」の実験的な機能を提供するVSCode拡張です。 以下の機能を提供しています。 ・コードの説明 ・コードを別の言語に翻訳 ・コードの編集 ・読みやすさの向上 ・型の追加 ・バグ修正 ・デバッグコードの追加・削除 ・コードをステップ毎に説明 ・コードの堅牢化 ・コードの分割 ・ドキュメントの追加 ・カスタム ・テストコードの生成 また、「GitHub Copilot Labs」では「GitHub Copilot」とは別の規約が適用されます。より多くの情報を収集する可能性があります。これは、実稼働ではなく、学習を目的として設計されているためになります。 2. GitHub Copilot Labsの開始「GitHub Copilot Labs」の開始手順は、次のとおりです。

    GitHub Copilot Labs の使い方|npaka
  • Google Colab で Rinna-3.6B のLoRAファインチューニングを試す|npaka

    Google Colab」で「Rinna-3.6B」のLoRAファインチューニングを試したのでまとめました。 【注意】Google Colab Pro/Pro+ の A100で動作確認しています。VRAMは14.0GB必要でした。 1. Rinna-3.6B「OpenCALM-7B」は、「サイバーエージェント」が開発した、日語LLMです。商用利用可能なライセンスで公開されており、このモデルをベースにチューニングすることで、対話型AI等の開発が可能です。 「Rinna-3.6B」は、「Rinna」が開発した、日語LLMです。商用利用可能なライセンスで公開されており、このモデルをベースにチューニングすることで、対話型AI等の開発が可能です。 2. 学習「Google Colab」で「Rinna-3.6B」のLoRAファインチューニングを行います。データセットは@kun1em0nさんの「k

    Google Colab で Rinna-3.6B のLoRAファインチューニングを試す|npaka
  • RLHF (人間のフィードバックからの強化学習) の図解|npaka

    以下の記事が面白かったので、軽く要約しました。 ・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依存するため、定義することが困難です。 「良い」テキストを生成するための損失関数の設計は難しく、ほとんどの言語モデルは、まだ単純な次のトークン予測損失(クロスエントロピーなど)で学習しています。この損失自体の欠点を補うために、BLEUやROUGEなどの人間の好みをよりよく捉えるように設計された指標も定義されています。しかしこれらは、能力測定において損失関数より適してますが、生成されたテキストを単純なルールで参照比較するため、制限があり

    RLHF (人間のフィードバックからの強化学習) の図解|npaka