kndkndkndのブックマーク - はてなブックマーク

TensorFlow.js 入門 / 物体検出｜npaka

「TensorFlow.js」を使って、ブラウザで「物体検出」を行います。Chromeで動作確認しています。 1. 物体検出「TensorFlow.js」による物体検出のコードは、次のとおり。  <script src="https://cdn.jsdelivr.net/npm/@tensorflow/tfjs"></script>  <script src="https://cdn.jsdelivr.net/npm/@tensorflow-models/coco-ssd"> </script>  <img id="img" src="cat.jpg"/> <script> // 画像の取得 const img = document.getEleme

kndkndknd 2025/04/04

リンク

GPT-4o の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

kndkndknd 2024/05/14

リンク

Google Colab で Llama 3 を試す｜npaka

「Google Colab」で「Llama 3」を試したので、まとめました。 1. Llama 3「Llama 3」は、Metaが開発したオープンモデルです。 2. Llama 3 のモデル「Llama 3」では現在、次の4種類のモデルが提供されています。・meta-llama/Meta-Llama-3-8B ・meta-llama/Meta-Llama-3-8B-Instruct ・meta-llama/Meta-Llama-3-70B ・meta-llama/Meta-Llama-3-70B-Instruct 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install -U transf ormers accelerate bitsandbytes(2) モデルカードで利用許諾。 (3)

kndkndknd 2024/04/20

あとで読む

リンク

Google Colab で Gemini API を試す｜npaka

「Google Colab」で「Gemini API」を試したので、まとめました。 1. Gemini API「Gemini API」は、「Google DeepMind」が開発したマルチモーダル大規模言語モデル「Gemini」を利用するためのAPIです。 3. Gemini API の準備Colabでの「Gemini API」の準備手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install -q -U google-generativeai(2) 「Google AI Studio」からAPIキーを取得し、Colabのシークレットマネージャーに登録。キーは「GOOGLE_API_KEY」とします。 import google.generativeai as genai from google.colab import userd

kndkndknd 2023/12/15

リンク

LangChain.js クイックスタートガイド - TypeScript版｜npaka

TypeScript版の「LangChain.js」のクイックスタートガイドをまとめました。・LangChain.js v0.0.6 1. LangChain.js「LangChain」は、「大規模言語モデル」 (LLM : Large language models) と連携するアプリの開発を支援するライブラリです。「LangChain.js」はそのTypeScript版になります。「LLM」という革新的テクノロジーによって、開発者は今まで不可能だったことが可能になりました。しかし、「LLM」を単独で使用するだけでは、真に強力なアプリケーションを作成するのに不十分です。本当の力は、それを他の計算や知識と組み合わせた時にもたらされます。「LangChain」は、そのようなアプリケーションの開発をサポートします。主な用途は、次の3つになります。・文書に関する質問応答・チャットボット

kndkndknd 2023/09/23

あとで読む

リンク

HuggingFace Diffusers v0.20.0の新機能｜npaka

1. Diffusers v0.20.0 のリリースノート情報元となる「Diffusers 0.20.0」のリリースノートは、以下で参照できます。 2. SDXL ControlNets「SDXL」で、次の2つのControlNetを学習しました。・Canny (diffusers/controlnet-canny-sdxl-1.0) ・Depth (diffusers/controlnet-depth-sdxl-1.0) ここで、SDXL ControlNet のチェックポイントを見つけることができます。詳しくは、モデルカードを参照。このリリースでは、SDXLで学習された複数のControlNetを組み合わせて推論を実行するためのサポートも導入されています。詳しくは、ドキュメントを参照。 3. GLIGEN「GLIGEN」は、University of Wisconsin-Madi

kndkndknd 2023/08/21

あとで読む

リンク

Google Colab で Llama 2 を試す｜npaka

「Google Colab」で「Llama 2」を試したので、まとめました。 1. Llama 2「Llama 2」は、Metaが開発した、7B・13B・70B パラメータのLLMです。 2. モデル一覧「Llama 2」は、次の6個のモデルが提供されています。 (hfでないモデルも存在) ・meta-llama/Llama-2-70b-hf ・meta-llama/Llama-2-70b-chat-hf ・meta-llama/Llama-2-13b-hf ・meta-llama/Llama-2-13b-chat-hf ・meta-llama/Llama-2-7b-hf ・meta-llama/Llama-2-7b-chat-hf 3. 利用申請「Llama 2」を利用するには、利用申請が必要です。 (1) 公式のMetaのフォームから利用申請。数時間後に利用許可のメールがきます。 (

kndkndknd 2023/07/22

リンク

ロボット開発のためのChatGPT｜npaka

Microsoftの記事「ChatGPT for Robotics: Design Principles and Model Abilities」が面白かったので、簡単にまとめました。 1. ロボット開発のためのChatGPT現在のロボット開発は、エンジニアがタスクの要件をシステムのコードに変換することから始まります。つまり、エンジニアはロボットの動作を修正するために、新しい仕様とコードを作成する必要があります。このプロセスは遅く、費用がかかり、非効率的です。(左図) 「ChatGPT」は、新しいロボティクスパラダイムの扉を開き、非技術者のユーザーがロボットのパフォーマンスを監視しながら大規模言語モデル（LLM）から高レベルなフィードバックを受け取ることを可能にします。(右図) 一連の「設計原則」に従うことで、「ChatGPT」はロボットタスクを達成するコードを生成できるようになります。

kndkndknd 2023/03/29

あとで読む

リンク

ChatGPTプラグインの作成方法｜npaka

1. ChatGPTプラグインの作成手順「ChatGPTプラグイン」の作成手順は、次のとおりです。 (1) APIの実装 (2) マニフェストファイルの作成 (3) OpenAPIドキュメントの作成 2. マニフェストファイルの作成2-1. マニフェストファイルの基本構成「マニフェストファイル」は、「ChatGPTプラグイン」のメタデータを記述するファイルです。APIのドメインの「/.well-known/ai-plugin.json」でホストします。「マニフェストファイル」の基本構成は、次のとおりです。 { "schema_version": "v1", "name_for_human": "TODO Plugin", "name_for_model": "todo", "description_for_human": "Plugin for managing a TODO list.

kndkndknd 2023/03/29

あとで読む

リンク

ChatGPT Retrieval Plugin を試す｜npaka

「ChatGPT Retrieval Plugin」を試したので、まとめました。・Python 3.10.10 ・LlamaIndex v0.4.38 ・LangChain v0.0.123 1. ChatGPT Retrieval Plugin「ChatGPT Retrieval Plugin」は、情報提供を許可した個人・団体のデータにアクセスできる「ChatGPTプラグイン」です。OpenAI公式の「ChatGPTプラグイン」の実装になります。 2. ベクトルデータベースの準備「ChatGPT Retrieval Plugin」は、ドキュメントの埋め込みの保存とクエリにベクトルデータベースを使います。以下のデータベースに対応しています。・pinecone ・weaviate ・zilliz ・milvus ・qdrant ・redis 今回は、「Pinecone」を使います。 (

kndkndknd 2023/03/29

あとで読む

リンク

GitHub Copilot の使い方｜npaka

「GitHub Copilot」を使ってみたので、まとめました。 1. GitHub Copilot「GitHub Copilot」は、人工知能のペアプログラミングシステムです。人工知能 (OpenAI Codex) がコードの候補を提案することにより、プログラマがより迅速に少ない作業でコードを書けるようにサポートします。サポートするエディタは、次の4つです。・Visual Studio Code ・Visual Studio ・JetBrains ・Neovim 2. 使用料金「GitHub Copilot」の使用料金は月10ドル、または年100ドルです。60日間の無料トライアルもあります。・Pricing - GitHub Copilot 3. GitHub Copilotの開始「GitHub Copilot」の開始手順は、次のとおりです。 (1) 「GitHub」アカウントを持

kndkndknd 2023/03/20

リンク

Alpaca まとめ｜npaka

「Alpaca」の学習方法について軽くまとめました。 1. Alpaca「Alpaca」は、「LLaMA 7B」(Meta)をファインチューニングした言語モデルです。「text-davinci-003」による「self-instruct」で生成された52Kの命令追従型の学習データを使って学習しています。「Alpaca」はOpenAIの「text-davinci-003」に似た挙動を示しますが、驚くほど小さく再現が容易で安価であることが特徴です。また、「Alpaca」は学術研究のみを目的としており、商用利用は禁止しています。 2. 学習済み言語モデルと学習データアカデミックな予算で高品質な言語モデルを学習させるためには、「強力な学習済み言語モデル」と「高品質な学習データ」が必要です。 1つ目は、最近リリースされたMetaの「LLaMA」で解決されます。2つ目は、「self-instru

kndkndknd 2023/03/15

あとで読む

リンク

OpenAI API で提供されているモデルまとめ｜npaka

1. OpenAI APIのモデル「OpenAI API」は、用途に応じて「GPT-3.5」をはじめとする様々なモデルを提供しています。・GPT-3.5 : 自然言語とコードを理解および生成する最新モデル。・DALL-E : 自然言語から画像を生成・編集するモデル・Whisper : 音声をテキストに変換するモデル・Embeddings : 埋め込み (ベクトル表現) を生成するモデル・Codex : コードを理解および生成するモデル・Moderation : センシティブおよび安全でない文章を検出するモデル・GPT-3 : 自然言語を理解および生成する旧モデル 2. GPT-3.5「GPT-3.5」は、自然言語とコードを理解および生成する最新モデルです。最も高性能で費用対効果の高いモデルは、チャット用に最適化されていますが、既存タスクにも適している「gpt-3.5-tu

kndkndknd 2023/03/04

あとで読む

リンク

ChatGPT API の使い方｜npaka

「OpenAI」の記事「Chat completions」が面白かったので、軽くまとめました。 1. ChatGPT API「ChatGPT」は、OpenAIの最も先進的な言語モデルである「gpt-3.5-turbo」を搭載しています。「OpenAI API」から「gpt-3.5-turbo」を使用して独自アプリケーションを作成できます。・メールや文章のドラフト・Pythonコードの生成・一連の文書に関する質問応答・会話型エージェントの作成・ソフトウェアへの自然言語インターフェースの追加・さまざまな科目の家庭教師・言語の翻訳・ビデオゲームのキャラクターのシミュレート 2. 使用料金使用料金は、以下で確認できます。 3. Colab での実行「gpt-3.5-turbo」は、マルチターンの会話を簡単にするように設計されていますが、会話のないシングルターンタスクでも役立ちます

kndkndknd 2023/03/02

リンク

Google Colab で FlexGen を試す｜npaka

「Google Colab」で「FlexGen」を試したのでまとめました。【注意】「OPT-30B」のチャットデモを実行するには、「Google Colab Pro/Pro+」の「プレミア」の「ハイメモリ」と、300GBほどのGoogleドライブが必要です。 1. FlexGen「FlexGen」は、限られたGPUメモリ (16GB T4 または 24GB RTX3090など) で大規模言語モデルを実行するための高スループット生成エンジンです。大規模言語モデル (LLM) は、ChatGPTやCopilotなどのアプリケーションのコアになりますが、LLM推論の計算とメモリの要件が高いため、従来では複数のハイエンドアクセラレータを使用した場合にのみ実行可能でした。「FlexGen」は、LLM推論のリソース要件を1つのコモディティGPU (T4、3090など) にまで下げ、さまざまなハード

kndkndknd 2023/02/23

あとで読む

リンク

getUserMedia()の設定項目｜npaka

JavaScriptでWebカメラやマイクのメディアストリームを取得するgetUserMedia()の設定項目をまとめてみました。 1. getUserMedia()getUserMedia()は、ユーザーのWebカメラやマイクの「メディアストリーム」を取得するメソッドです。引数では、「audio」(音声)と「video」(動画)の有効・無効を指定できます。 const mediaStream = await navigator.mediaDevices .getUserMedia({ audio: true, video: true })true・falseの代わりに「制約」を指定することもできます。以下は、160x120の動画ストリームを取得する例になりますです。 let mediaStream = await navigator.mediaDevices .getUserMedi

kndkndknd 2021/10/14

リンク

WebSocket の使い方 - Unity｜npaka

Unityの「WebSocket」の使い方をまとめました。「Node.js版」のサンプルとの通信できます。 1. WebSocketWebアプリで双方向通信を実現するための技術規格。文字列とバリナリデータを送受信することが可能。 2. プロジェクトの作成プロジェクトの作成方法は、次のとおり。 (1) 「websocket-sharp」をダウンロード。 (2) 「websocket-sharpフォルダ」内の「websocket-sharp.sln」をダブルクリック。 Visual Studioが起動します。 (3) 「Example」「Example1」「Example2」「 Example3」を削除。 (4) メニュー「プロジェクト → アクティブ構成 → リリース」を選択。 (5) メニュー「ビルド → すべてビルド」を選択。成功すると、websocket-sharp/bin/Rel

kndkndknd 2021/02/22

リンク

はてなブックマーク

タグ

ブックマーク / note.com/npaka (17)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第3週）

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス