ブックマーク / note.com/npaka (16)

  • GPT-4o の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

    GPT-4o の概要|npaka
    kndkndknd
    kndkndknd 2024/05/14
  • Google Colab で Llama 3 を試す|npaka

    Google Colab」で「Llama 3」を試したので、まとめました。 1. Llama 3「Llama 3」は、Metaが開発したオープンモデルです。 2. Llama 3 のモデル「Llama 3」では現在、次の4種類のモデルが提供されています。 ・meta-llama/Meta-Llama-3-8B ・meta-llama/Meta-Llama-3-8B-Instruct ・meta-llama/Meta-Llama-3-70B ・meta-llama/Meta-Llama-3-70B-Instruct 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install -U transformers accelerate bitsandbytes(2) モデルカードで利用許諾。 (3)

    Google Colab で Llama 3 を試す|npaka
  • Google Colab で Gemini API を試す|npaka

    Google Colab」で「Gemini API」を試したので、まとめました。 1. Gemini API「Gemini API」は、「Google DeepMind」が開発したマルチモーダル大規模言語モデル「Gemini」を利用するためのAPIです。 3. Gemini API の準備Colabでの「Gemini API」の準備手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install -q -U google-generativeai(2) 「Google AI Studio」からAPIキーを取得し、Colabのシークレットマネージャーに登録。 キーは「GOOGLE_API_KEY」とします。 import google.generativeai as genai from google.colab import userd

    Google Colab で Gemini API を試す|npaka
    kndkndknd
    kndkndknd 2023/12/15
  • LangChain.js クイックスタートガイド - TypeScript版|npaka

    TypeScript版の「LangChain.js」のクイックスタートガイドをまとめました。 ・LangChain.js v0.0.6 1. LangChain.js「LangChain」は、「大規模言語モデル」 (LLM : Large language models) と連携するアプリの開発を支援するライブラリです。「LangChain.js」はそのTypeScript版になります。 「LLM」という革新的テクノロジーによって、開発者は今まで不可能だったことが可能になりました。しかし、「LLM」を単独で使用するだけでは、真に強力なアプリケーションを作成するのに不十分です。当の力は、それを他の計算や知識と組み合わせた時にもたらされます。「LangChain」は、そのようなアプリケーションの開発をサポートします。 主な用途は、次の3つになります。 ・文書に関する質問応答 ・チャットボット

    LangChain.js クイックスタートガイド - TypeScript版|npaka
  • HuggingFace Diffusers v0.20.0の新機能|npaka

    1. Diffusers v0.20.0 のリリースノート情報元となる「Diffusers 0.20.0」のリリースノートは、以下で参照できます。 2. SDXL ControlNets「SDXL」で、次の2つのControlNetを学習しました。 ・Canny (diffusers/controlnet-canny-sdxl-1.0) ・Depth (diffusers/controlnet-depth-sdxl-1.0) ここで、SDXL ControlNet のチェックポイントを見つけることができます。詳しくは、モデルカードを参照。 このリリースでは、SDXLで学習された複数のControlNetを組み合わせて推論を実行するためのサポートも導入されています。 詳しくは、ドキュメントを参照。 3. GLIGEN「GLIGEN」は、University of Wisconsin-Madi

    HuggingFace Diffusers v0.20.0の新機能|npaka
  • Google Colab で Llama 2 を試す|npaka

    Google Colab」で「Llama 2」を試したので、まとめました。 1. Llama 2「Llama 2」は、Metaが開発した、7B・13B・70B パラメータのLLMです。 2. モデル一覧「Llama 2」は、次の6個のモデルが提供されています。 (hfでないモデルも存在) ・meta-llama/Llama-2-70b-hf ・meta-llama/Llama-2-70b-chat-hf ・meta-llama/Llama-2-13b-hf ・meta-llama/Llama-2-13b-chat-hf ・meta-llama/Llama-2-7b-hf ・meta-llama/Llama-2-7b-chat-hf 3. 利用申請「Llama 2」を利用するには、利用申請が必要です。 (1) 公式のMetaのフォームから利用申請。 数時間後に利用許可のメールがきます。 (

    Google Colab で Llama 2 を試す|npaka
    kndkndknd
    kndkndknd 2023/07/22
  • ロボット開発のためのChatGPT|npaka

    Microsoftの記事「ChatGPT for Robotics: Design Principles and Model Abilities」が面白かったので、簡単にまとめました。 1. ロボット開発のためのChatGPT現在のロボット開発は、エンジニアがタスクの要件をシステムのコードに変換することから始まります。つまり、エンジニアはロボットの動作を修正するために、新しい仕様とコードを作成する必要があります。このプロセスは遅く、費用がかかり、非効率的です。(左図) 「ChatGPT」は、新しいロボティクスパラダイムの扉を開き、非技術者のユーザーがロボットのパフォーマンスを監視しながら大規模言語モデル(LLM)から高レベルなフィードバックを受け取ることを可能にします。(右図) 一連の「設計原則」に従うことで、「ChatGPT」はロボットタスクを達成するコードを生成できるようになります。

    ロボット開発のためのChatGPT|npaka
  • ChatGPTプラグイン の作成方法|npaka

    1. ChatGPTプラグインの作成手順「ChatGPTプラグイン」の作成手順は、次のとおりです。 (1) APIの実装 (2) マニフェストファイルの作成 (3) OpenAPIドキュメントの作成 2. マニフェストファイルの作成2-1. マニフェストファイルの基構成「マニフェストファイル」は、「ChatGPTプラグイン」のメタデータを記述するファイルです。APIのドメインの「/.well-known/ai-plugin.json」でホストします。 「マニフェストファイル」の基構成は、次のとおりです。 { "schema_version": "v1", "name_for_human": "TODO Plugin", "name_for_model": "todo", "description_for_human": "Plugin for managing a TODO list.

    ChatGPTプラグイン の作成方法|npaka
  • ChatGPT Retrieval Plugin を試す|npaka

    ChatGPT Retrieval Plugin」を試したので、まとめました。 ・Python 3.10.10 ・LlamaIndex v0.4.38 ・LangChain v0.0.123 1. ChatGPT Retrieval Plugin「ChatGPT Retrieval Plugin」は、情報提供を許可した個人・団体のデータにアクセスできる「ChatGPTプラグイン」です。OpenAI公式の「ChatGPTプラグイン」の実装になります。 2. ベクトルデータベースの準備「ChatGPT Retrieval Plugin」は、ドキュメントの埋め込みの保存とクエリにベクトルデータベースを使います。 以下のデータベースに対応しています。 ・pinecone ・weaviate ・zilliz ・milvus ・qdrant ・redis 今回は、「Pinecone」を使います。 (

    ChatGPT Retrieval Plugin を試す|npaka
  • GitHub Copilot の使い方|npaka

    GitHub Copilot」を使ってみたので、まとめました。 1. GitHub Copilot「GitHub Copilot」は、人工知能のペアプログラミングシステムです。人工知能 (OpenAI Codex) がコードの候補を提案することにより、プログラマがより迅速に少ない作業でコードを書けるようにサポートします。 サポートするエディタは、次の4つです。 ・Visual Studio Code ・Visual Studio ・JetBrainsNeovim 2. 使用料金「GitHub Copilot」の使用料金は月10ドル、または年100ドルです。60日間の無料トライアルもあります。 ・Pricing - GitHub Copilot 3. GitHub Copilotの開始「GitHub Copilot」の開始手順は、次のとおりです。 (1) 「GitHub」アカウントを持

    GitHub Copilot の使い方|npaka
  • Alpaca まとめ|npaka

    「Alpaca」の学習方法について軽くまとめました。 1. Alpaca「Alpaca」は、「LLaMA 7B」(Meta)をファインチューニングした言語モデルです。「text-davinci-003」による「self-instruct」で生成された52Kの命令追従型の学習データを使って学習しています。「Alpaca」はOpenAIの「text-davinci-003」に似た挙動を示しますが、驚くほど小さく再現が容易で安価であることが特徴です。 また、「Alpaca」は学術研究のみを目的としており、商用利用は禁止しています。 2. 学習済み言語モデル と 学習データアカデミックな予算で高品質な言語モデルを学習させるためには、「強力な学習済み言語モデル」と「高品質な学習データ」が必要です。 1つ目は、最近リリースされたMetaの「LLaMA」で解決されます。2つ目は、「self-instru

    Alpaca まとめ|npaka
  • OpenAI API で提供されている モデル まとめ|npaka

    1. OpenAI APIのモデル「OpenAI API」は、用途に応じて「GPT-3.5」をはじめとする様々なモデル を提供しています。 ・GPT-3.5 : 自然言語とコードを理解および生成する最新モデル。 ・DALL-E : 自然言語から画像を生成・編集するモデル ・Whisper : 音声をテキストに変換するモデル ・Embeddings : 埋め込み (ベクトル表現) を生成するモデル ・Codex : コードを理解および生成するモデル ・Moderation : センシティブおよび 安全でない文章を検出するモデル ・GPT-3 : 自然言語を理解および生成する旧モデル 2. GPT-3.5「GPT-3.5」は、自然言語とコードを理解および生成する最新モデルです。最も高性能で費用対効果の高いモデルは、チャット用に最適化されていますが、既存タスクにも適している「gpt-3.5-tu

    OpenAI API で提供されている モデル まとめ|npaka
  • ChatGPT API の使い方|npaka

    OpenAI」の 記事「Chat completions」が面白かったので、軽くまとめました。 1. ChatGPT APIChatGPT」は、OpenAIの最も先進的な言語モデルである「gpt-3.5-turbo」を搭載しています。「OpenAI API」から「gpt-3.5-turbo」を使用して独自アプリケーションを作成できます。 ・メールや文章のドラフト ・Pythonコードの生成 ・一連の文書に関する質問応答 ・会話型エージェントの作成 ・ソフトウェアへの自然言語インターフェースの追加 ・さまざまな科目の家庭教師 ・言語の翻訳 ・ビデオゲームのキャラクターのシミュレート 2. 使用料金使用料金は、以下で確認できます。 3. Colab での実行「gpt-3.5-turbo」は、マルチターンの会話を簡単にするように設計されていますが、会話のないシングルターンタスクでも役立ちます

    ChatGPT API の使い方|npaka
    kndkndknd
    kndkndknd 2023/03/02
  • Google Colab で FlexGen を試す|npaka

    Google Colab」で「FlexGen」を試したのでまとめました。 【注意】「OPT-30B」のチャットデモを実行するには、「Google Colab Pro/Pro+」の「プレミア」の「ハイメモリ」と、300GBほどのGoogleドライブが必要です。 1. FlexGen「FlexGen」は、限られたGPUメモリ (16GB T4 または 24GB RTX3090など) で大規模言語モデルを実行するための高スループット生成エンジンです。 大規模言語モデル (LLM) は、ChatGPTやCopilotなどのアプリケーションのコアになりますが、LLM推論の計算とメモリの要件が高いため、従来では複数のハイエンドアクセラレータを使用した場合にのみ実行可能でした。「FlexGen」は、LLM推論のリソース要件を1つのコモディティGPU (T4、3090など) にまで下げ、さまざまなハード

    Google Colab で FlexGen を試す|npaka
  • getUserMedia()の設定項目|npaka

    JavaScriptでWebカメラやマイクのメディアストリームを取得するgetUserMedia()の設定項目をまとめてみました。 1. getUserMedia()getUserMedia()は、ユーザーのWebカメラやマイクの「メディアストリーム」を取得するメソッドです。 引数では、「audio」(音声)と「video」(動画)の有効・無効を指定できます。 const mediaStream = await navigator.mediaDevices .getUserMedia({ audio: true, video: true })true・falseの代わりに「制約」を指定することもできます。 以下は、160x120の動画ストリームを取得する例になりますです。 let mediaStream = await navigator.mediaDevices .getUserMedi

    getUserMedia()の設定項目|npaka
    kndkndknd
    kndkndknd 2021/10/14
  • WebSocket の使い方 - Unity|npaka

    Unityの「WebSocket」の使い方をまとめました。「Node.js版」のサンプルとの通信できます。 1. WebSocketWebアプリで双方向通信を実現するための技術規格。 文字列とバリナリデータを送受信することが可能。 2. プロジェクトの作成プロジェクトの作成方法は、次のとおり。 (1) 「websocket-sharp」をダウンロード。 (2) 「websocket-sharpフォルダ」内の「websocket-sharp.sln」をダブルクリック。 Visual Studioが起動します。 (3) 「Example」「Example1」「Example2」「 Example3」を削除。 (4) メニュー「プロジェクト → アクティブ構成 → リリース」を選択。 (5) メニュー「ビルド → すべてビルド」を選択。 成功すると、websocket-sharp/bin/Rel

    WebSocket の使い方 - Unity|npaka
  • 1