yasuhiro1212のブックマーク - はてなブックマーク

Luma Dream Machine プロンプトガイド｜npaka

以下の記事が面白かったので、簡単にまとめました。・FAQ and Prompt Guide: Luma Dream Machine 1. Image to Video のプロンプトガイド・生成ページの画像アイコンをクリックして JPG、JPEG、PNG画像をアップロードします。シーンを説明するプロンプトを提供することもできます。・「Enhance Prompt」を有効にすると、シーンで何が起きてほしいかを説明するだけで済みます。 <image of a car> + “a red car driving on a road” ・希望する出力が得られない場合は、「Enhance prompt」なしで試すことができます。この場合、画像とシーンで何が起きてほしいかを説明する必要があります。強化されていないプロンプトでは、モーションがまったく見られないか、モーションがほとんど見られなくなる可

yasuhiro1212 2024/06/18

あとで読む

リンク

GPT-4o の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

yasuhiro1212 2024/05/14

あとで読む

リンク

OpenAI DevDay で発表された新モデルと新開発ツールまとめ｜npaka

以下の記事が面白かったので、かるくまとめました。・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造

yasuhiro1212 2023/11/07

あとで読む

リンク

LangChain クイックスタートガイド - Python版｜npaka

Python版の「LangChain」のクイックスタートガイドをまとめました。・LangChain v0.0.329 (2023/11/3) 1. LangChain「LangChain」は、「大規模言語モデル」 (LLM : Large language models) と連携するアプリの開発を支援するライブラリです。「LLM」という革新的テクノロジーによって、開発者は今まで不可能だったことが可能になりました。しかし、「LLM」を単独で使用するだけでは、真に強力なアプリケーションを作成するのに不十分です。真の力は、それを他の計算や知識と組み合わせた時にもたらされます。「LangChain」は、そのようなアプリケーションの開発をサポートします。主な用途は、次の3つになります。・文書に関する質問応答・チャットボット・エージェント 2. LangChain のモジュール「L

yasuhiro1212 2023/11/04

あとで読む

リンク

LLMのファインチューニングで何ができて何ができないのか｜npaka

LLMのファインチューニングで何ができて、何ができないのかまとめました。 1. LLMのファインチューニングLLMのファインチューニングの目的は、「特定のアプリケーションのニーズとデータに基づいて、モデルの出力の品質を向上させること」にあります。 OpenAIのドキュメントには、次のように記述されています。ファインチューニングは、プロンプトに収まるよりも多くの例で学習することで、Few-Shot学習を改善します。一度モデルをファインチューニングすれば、プロンプトにそれほど多くの例を提供する必要がなくなります。これにより、コストを削減し、低レイテンシのリクエストを可能にします。しかし実際には、それよりもかなり複雑です。 LLMには「大量のデータを投げれば自動的に解決する」ような創発的な特性があるため、ファインチューニングもそのように機能すると人々は考えていますが、必ずしもそうではありませ

yasuhiro1212 2023/08/29

あとで読む

リンク

OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留を試す｜npaka

OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留を試したのでまとめました。 1. GPT-4 から GPT-3.5 への蒸留「LlamaIndex」で、OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留のColabが提供されてたので、それをベースに独自データで試してみました。具体的には、「GPT-4」で学習データを生成し、「GPT-3.5」でファインチューニングすることで、「GPT-3.5」に「GPT-4」相当の知識を習得させます。 We successfully made gpt-3.5-turbo output GPT-4 quality responses in an e2e RAG system 🔥 Stack: automated training dataset creation in @ll

yasuhiro1212 2023/08/27

あとで読む

リンク

OpenAI API のファインチューニングガイド｜npaka

1. ファインチューニングの利点ファインチューニングの利点は、次のとおりです。 (1) プロンプトよりも高品質な応答 (2) プロンプトに収まりきらないより多くの例の適用 (3) プロンプトの短縮によるトークン数 (コスト) の節約 (4) プロンプトの短縮による処理時間の短縮モデルは膨大な量のテキストで事前学習されており、このモデルを効果的に利用するため、プロンプトに手順や応答の例を指定する手法が使われます。この例を使用してタスクの実行方法を示すことを「Few-Shot」と呼びます。ファインチューニングで、プロンプトに収まりきらないより多くの例で学習することにより、さまざまなタスクでより良い結果を達成できるようになります。プロンプトに多くの例を指定する必要はなくなります。これによりトークン (コスト) が節約され、処理時間も短縮されます。 2. ファインチューニングの使用料金ファイン

yasuhiro1212 2023/08/24

あとで読む

リンク

GitHub Copilot Labs の使い方｜npaka

1. GitHub Copilot Labs「GitHub Copilot Labs」は、「GitHub Copilot」の実験的な機能を提供するVSCode拡張です。以下の機能を提供しています。・コードの説明・コードを別の言語に翻訳・コードの編集・読みやすさの向上・型の追加・バグ修正・デバッグコードの追加・削除・コードをステップ毎に説明・コードの堅牢化・コードの分割・ドキュメントの追加・カスタム・テストコードの生成また、「GitHub Copilot Labs」では「GitHub Copilot」とは別の規約が適用されます。より多くの情報を収集する可能性があります。これは、実稼働ではなく、学習を目的として設計されているためになります。 2. GitHub Copilot Labsの開始「GitHub Copilot Labs」の開始手順は、次のとおりです。

yasuhiro1212 2023/07/17

あとで読む

リンク

OpenAI APIのファインチューニングの学習データのガイドライン｜npaka

以下の記事を元に、「OpenAI API」のファインチューニングの学習データのガイドラインをまとめました。 1. 学習データの書式ファインチューニングするには、単一の入力「プロンプト」とそれに関連する出力「コンプリーション」のペアで構成される学習データが必要です。これは、１回のプロンプトで詳細な手順や複数の例を入力するような、ベースモデルの使用方法とは大きく異なります。「学習データの書式」のガイドラインは、次のとおりです。・プロンプトが終了してコンプリーションが開始することをモデルに知らせるため、区切り記号 ("\n\n###\n\n"など) でプロンプトを終了する必要があります。区切り記号は、プロンプトの他の場所で使用されない文字列を指定します。・コンプリーションが終了することをモデルに知らせるため、停止記号 ("\n"、"###"など)でコンプリーションを終了する必要がありま

yasuhiro1212 2023/04/17

あとで読む

リンク

ChatGPTプラグインの作成方法｜npaka

1. ChatGPTプラグインの作成手順「ChatGPTプラグイン」の作成手順は、次のとおりです。 (1) APIの実装 (2) マニフェストファイルの作成 (3) OpenAPIドキュメントの作成 2. マニフェストファイルの作成2-1. マニフェストファイルの基本構成「マニフェストファイル」は、「ChatGPTプラグイン」のメタデータを記述するファイルです。APIのドメインの「/.well-known/ai-plugin.json」でホストします。「マニフェストファイル」の基本構成は、次のとおりです。 { "schema_version": "v1", "name_for_human": "TODO Plugin", "name_for_model": "todo", "description_for_human": "Plugin for managing a TODO list.

yasuhiro1212 2023/03/25

あとで読む

リンク

ChatGPTプラグインの概要｜npaka

「OpenAI」の「ChatGPTプラグイン」の記事が面白かったので、かるくまとめました。・Chat Plugins - OpenAI API ・ウェイトリスト 1. ChatGPTプラグイン「ChatGPTプラグイン」は、「ChatGPT」をサードパーティのアプリケーションに接続するためのプラグインです。「ChatGPT」は、開発者によって定義されたAPIと対話し、機能を強化し、幅広いアクションを実行できるようになります。次のような機能を追加できます。・リアルタイム情報の取得 (スポーツスコア、株価、最新ニュースなど) ・知識ベース情報の取得 (会社のドキュメント、個人的なメモなど) ・ユーザーに代わってアクションを実行 (フライトの予約、食べ物の注文など) プラグイン開発者は、マニフェストファイルとAPIエンドポイントを公開します。これらはプラグインの機能を定義し、「ChatGP

yasuhiro1212 2023/03/24

あとで読む

リンク

最近話題になった大規模言語モデルまとめ｜npaka

最近話題になった大規模言語モデルをまとめました。 1. クラウドサービス1-1. GPT-4「GPT-4」は、「OpenAI」によって開発された大規模言語モデルです。マルチモーダルで、テキストと画像のプロンプトを受け入れることができるようになりました。最大トークン数が4Kから32kに増えました。推論能力も飛躍的に向上しています。現在、「ChatGPT Plus」(有料版)で制限付きで利用できる他、ウェイトリストの登録者を対象に「OpenAI API」での利用も開始しています。

yasuhiro1212 2023/03/17

あとで読む

リンク

GitHub Copilot の使い方｜npaka

「GitHub Copilot」を使ってみたので、まとめました。 1. GitHub Copilot「GitHub Copilot」は、人工知能のペアプログラミングシステムです。人工知能 (OpenAI Codex) がコードの候補を提案することにより、プログラマがより迅速に少ない作業でコードを書けるようにサポートします。サポートするエディタは、次の4つです。・Visual Studio Code ・Visual Studio ・JetBrains ・Neovim 2. 使用料金「GitHub Copilot」の使用料金は月10ドル、または年100ドルです。60日間の無料トライアルもあります。・Pricing - GitHub Copilot 3. GitHub Copilotの開始「GitHub Copilot」の開始手順は、次のとおりです。 (1) 「GitHub」アカウントを持

yasuhiro1212 2023/03/08

あとで読む

リンク

OpenAI API で提供されているモデルまとめ｜npaka

1. OpenAI APIのモデル「OpenAI API」は、用途に応じて「GPT-3.5」をはじめとする様々なモデルを提供しています。・GPT-3.5 : 自然言語とコードを理解および生成する最新モデル。・DALL-E : 自然言語から画像を生成・編集するモデル・Whisper : 音声をテキストに変換するモデル・Embeddings : 埋め込み (ベクトル表現) を生成するモデル・Codex : コードを理解および生成するモデル・Moderation : センシティブおよび安全でない文章を検出するモデル・GPT-3 : 自然言語を理解および生成する旧モデル 2. GPT-3.5「GPT-3.5」は、自然言語とコードを理解および生成する最新モデルです。最も高性能で費用対効果の高いモデルは、チャット用に最適化されていますが、既存タスクにも適している「gpt-3.5-tu

yasuhiro1212 2023/03/05

あとで読む

リンク

ChatGPT API の使い方｜npaka

「OpenAI」の記事「Chat completions」が面白かったので、軽くまとめました。 1. ChatGPT API「ChatGPT」は、OpenAIの最も先進的な言語モデルである「gpt-3.5-turbo」を搭載しています。「OpenAI API」から「gpt-3.5-turbo」を使用して独自アプリケーションを作成できます。・メールや文章のドラフト・Pythonコードの生成・一連の文書に関する質問応答・会話型エージェントの作成・ソフトウェアへの自然言語インターフェースの追加・さまざまな科目の家庭教師・言語の翻訳・ビデオゲームのキャラクターのシミュレート 2. 使用料金使用料金は、以下で確認できます。 3. Colab での実行「gpt-3.5-turbo」は、マルチターンの会話を簡単にするように設計されていますが、会話のないシングルターンタスクでも役立ちます

yasuhiro1212 2023/03/02

あとで読む

リンク

Google Colab で PEFT による大規模言語モデルのファインチューニングを試す｜npaka

「Google Colab」で「PEFT」による大規模言語モデルのファインチューニングを試したので、まとめました。 1. PEFT「PEFT」(Parameter-Efficient Fine-Tuning)は、モデルの全体のファインチューニングなしに、事前学習済みの言語モデルをさまざまな下流タスクに適応させることができるパッケージです。大規模言語モデルのファインチューニングは、多くの場合、法外なコストがかかりますが、「PEFT」は少数のパラメータのみをファインチューニングするため、計算コストとストレージコストが大幅に削減でき、さらには、完全なファインチューニングに匹敵するパフォーマンスを実現します。現在サポートしている手法は、次の4つです。・LoRA ・Prefix Tuning ・P-Tuning ・Prompt Tuning 2. Colabでの実行Google Colab

yasuhiro1212 2023/02/23

あとで読む

リンク

Google Colab で GPT-NEOX-20B による日本語テキスト生成を試す｜npaka

Google Colabで「GPT-NEOX-20B」による日本語テキスト生成を試したのでまとめました。【注意】「GPT-NEOX-20B」を動作させるには、「Google Colab Pro/Pro+」のプレミアム (A100 40GB) と「Google Drive」のスタンダード以上が必要です。 1. GPT-NEOX-20B「GPT-NEOX-20B」は、EleutherAIが提供するオープンソースの200億パラメータの言語モデルです。Pileデータセットで学習されています。 2. Colabでの実行Google Colabでの実行手順は、次のとおりです。 (1) 新規のColabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」の「プレミアム」を選択 (2) Googleドライブのマウント。 # Googleドライブのマウント from google.c

yasuhiro1212 2023/02/02

あとで読む

リンク

最近話題になった音楽生成AI まとめ｜npaka

最近話題になった「音楽生成AI」をまとめました。 1. AudioGenテキストからオーディオを生成するAIモデルです。「風が吹く中で口笛をする音」や「大勢の歓声の中で話す男性の声」といったテキストから、それらしい音を生成してくれます。現在のところ、モデルやAPIは提供されていません。 We present “AudioGen: Textually Guided Audio Generation”! AudioGen is an autoregressive transf ormer LM that synthesizes general audio conditioned on text (Text-to-Audio). 📖 Paper: https://t.co/XKctRaShN1 🎵 Samples: https://t.co/e7vWmOUfva 💻 Code & mod