タグ

ブックマーク / note.com/npaka (19)

  • Codex のiOSアプリ開発のためのプロンプトまとめ|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Native development – Codex | OpenAI Developers 1. iOSアプリのビルド1.1 はじめにiOS SwiftUIプロジェクトのひな形を作成するには「Codex」を使用し、ビルドループは「xcodebuild」または「Tuist」を使用してCLI優先で進め、作業が高度化するにつれて「XcodeBuildMCP」やSwiftUIに特化したスキルを追加します。 1-2. スキルとプラグイン・Build iOS Apps SwiftUI UIの構築またはリファクタリング、Liquid Glassなどの最新のiOSパターンの採用、ランタイムパフォーマンスの監査、そしてXcodeBuildMCPを活用したワークフローによるシミュレータ上でのアプリのデバッグを実現します。 1-3. アプリのスケルトン化とビ

    Codex のiOSアプリ開発のためのプロンプトまとめ|npaka
    CLSmooth
    CLSmooth 2026/05/02
  • OpenAI Apps SDK のアプリのデザインガイドライン|npaka

    OpenAI Apps SDKのアプリのデザインガイドラインをまとめました。 ・App design guidelines - Apps SDK 1. ChatGPTのアプリのデザインガイドライン「アプリ」は、ChatGPT内で動作する開発者が構築した体験です。会話の流れを中断することなく、ユーザーの操作を拡張します。軽量カード、カルーセル、全画面表示、その他の表示モードを通じて表示され、ChatGPTのインターフェースにシームレスに統合されながら、明瞭性、信頼性、そして音声性を維持します。 2. ベストプラクティス2-1. ベストプラクティス「アプリ」は、会話の流れを中断することなくChatGPT内で直接、ユーザーが意味のあるタスクを実行できるようにすることで、最も価値を発揮します。目標は、一貫性があり、便利で、信頼できる体験を設計しながら、ChatGPTを真の価値を付加する方法で拡張す

    OpenAI Apps SDK のアプリのデザインガイドライン|npaka
    CLSmooth
    CLSmooth 2025/10/10
  • Claude for Chrome の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Piloting Claude for Chrome 1. Claude for Chrome の概要ここ数ヶ月、「Claude」をカレンダー、ドキュメント、その他多くのソフトウェアに接続するための取り組みを行ってきました。次の論理的なステップは、「Claude」をブラウザ内で直接動作させることです。 ブラウザを利用するAIは避けられないと考えています。ブラウザ上で多くの処理が行われるため、「Claude」にユーザーが見ているものを認識し、ボタンをクリックしたり、フォームに入力したりできるようにすることで、「Claude」の利便性は大幅に向上します。 しかし、ブラウザを利用するAIには安全性とセキュリティ上の課題があり、より強力な保護対策が必要です。信頼できるパートナーから、AIの用途、欠点、安全性に関する実際のフィードバックを得ることで

    Claude for Chrome の概要|npaka
    CLSmooth
    CLSmooth 2025/08/28
  • gpt-oss の使い方|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Welcome GPT OSS, the new open-source model family from OpenAI! 1. gpt-oss「gpt-oss」は、OpenAIによる待望のオープンウェイトリリースであり、強力なReasoning、エージェントタスク、そして多様な開発者ユースケース向けに設計されています。117Bのパラメータを持つ大規模モデル「gpt-oss-120b」と、21Bのパラメータを持つ小規模モデル「gpt-oss-20b」の2つのモデルで構成されています。どちらも「MoE」(Mixture-of-Experts) であり、MXFP4を使用することで、リソース使用量を抑えながら高速推論を実現します。大規模モデルは単一のH100 GPUに収まり、小規模モデルは16GBのメモリ内で動作し、コンシューマーハードウェア

    gpt-oss の使い方|npaka
    CLSmooth
    CLSmooth 2025/08/06
  • Google Opal の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Introducing Opal: describe, create, and share your AI mini-apps 1. Opal「Opal」は、シンプルな自然言語とビジュアル編集機能を使って、プロンプト・モデル・ツールを連携させた強力なAIミニアプリを構築・共有できる実験ツールです。AIのアイデアやワークフローのプロトタイプ作成を加速させたり、実用的なアプリで概念実証を行ったり、仕事の生産性を向上させるカスタムAIアプリを構築したりするのに最適なツールです。 日、米国限定のパブリックベータ版をリリースしました。 3. コードを書かずにアイデアを実現「Opal」はまだ実験段階ですが、アイデアを現実のものにするために設計された強力な機能が満載です。 3-1. ワークフローの作成ソフトウェアを開発する際に、ユーザーが特定の目標を

    Google Opal の概要|npaka
    CLSmooth
    CLSmooth 2025/07/26
  • Gemini 2.5 の新機能|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Gemini 2.5: Our most intelligent models are getting even better 1. 新しい Gemini 2.5 Pro と Gemini 2.5 Flash1-1. Gemini 2.5 Pro先日、「Gemini 2.5 Pro」をアップデートしました。新しい「Gemini 2.5 Pro」は、「WebDev Arena」でELOスコア1415を記録し、トップに立っています。また、人間の嗜好を評価する「LMArena」のすべてのスコアでもトップに立っています。さらに、100万トークンのコンテキストウィンドウを備えた「Gemini 2.5 Pro」は、最先端のロングコンテキストおよび動画理解性能を備えています。 1-2. Gemini 2.5 Flash「Gemini 2.5 Flash

    Gemini 2.5 の新機能|npaka
    CLSmooth
    CLSmooth 2025/05/29
  • FastMCP での MCPサーバ と MCPクライアント の構築を試す|npaka

    「FastMCP」での「MCPサーバ」と「MCPクライアント」の構築を試したので、まとめました。 1. FastMCP「FastMCP」は、「MCPサーバ」や「MCPクライアント」をシンプルかつ直感的に構築できるパッケージです。 「MCP」の実装には、サーバのセットアップ、プロトコルハンドラ、コンテンツタイプ、エラー管理など、多くの定型処理が必要です。「FastMCP」は複雑なプロトコルとサーバ管理をすべて処理するため、開発者はツールの構築に集中できます。 「FastMCP」の目標は次のとおりです。 ・高速 高水準インターフェースによりコードが少なくなり、開発が高速化 ・シンプル 最小限の定型文で MCP サーバを構築 ・Pythonic Python開発者にとって自然に感じられる ・完全 コアMCP仕様の完全な実装を提供することを目指している 「FastMCP v1」は、 MCPサーバを

    FastMCP での MCPサーバ と MCPクライアント の構築を試す|npaka
    CLSmooth
    CLSmooth 2025/05/05
  • OpenAI Agents SDK 入門 (1) - 事始め|npaka

    OpenAI Agents SDK」の概要についてまとめました。 ・OpenAI Agents SDK 1. Agents SDK「Agents SDK」は、Agentシステムを構築するための軽量パッケージです。これは、以前の実験プロジェクト「Swarm」の番環境対応版となります。 「Agents SDK」は、以下な最小限のプリミティブで構成されています。 ・Agent : 指示とToolを備えたLLM ・Handoff : 特定のタスクを他のAgentに委任できる機能 ・Guardrail : Agentへの入力を検証するしくみ これらのプリミティブを Python と組み合わせることで、ToolとAgentの間の複雑な関係を表現し、学習コストなしに実用的なアプリケーションを構築できます。 さらに、SDK には トレース機能(Agentの動作を可視化・デバッグできる機能)が組み込まれ

    OpenAI Agents SDK 入門 (1) - 事始め|npaka
    CLSmooth
    CLSmooth 2025/03/19
  • OpenAI API の Agent構築のための新ツール|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・New tools for building agents 1. Responses API「Responses API」は、Agentを構築するための新しいAPIです。「Chat Completions」のシンプルさと、「Assistants API」のツール機能を組み合わせています。Agentアプリケーションを構築する開発者にとって、より柔軟な基盤を提供します。1回のAPI呼び出しで、複数のツールやモデルのターンを使用して、複雑なタスクを解決できるようになります。 「Responses API」は「Web search」「File search」「Computer use」などの組み込みツールをサポートします。これらのツールは連携してモデルを現実世界に接続し、タスク完遂においてより有用になるよう設計されています。また、統一されたアイテ

    OpenAI API の Agent構築のための新ツール|npaka
    CLSmooth
    CLSmooth 2025/03/14
  • OpenAI Responses API 入門 (11) - Computer use|npaka

    1. Computer use「Computer use」は、「CUA」(Computer-Using Agent)の実用的な応用であり、「GPT-4o」の視覚機能と高度な推論を組み合わせて、コンピューターインターフェースの操作やタスクの実行をシミュレートします。 2. Computer use のしくみ「Computer use」は、連続ループで動作します。このツールは click(x, y) や type(text) のようなコンピュータ操作を送信し、ユーザーのコードがそれをコンピュータやブラウザ環境で実行します。その後、結果のスクリーンショットがモデルに返されます。 このしくみにより、ユーザーのコードは人間がコンピュータインターフェースを操作する動作をシミュレートし、モデルはスクリーンショットを分析して環境の状態を理解し、次のアクションを提案します。 このループを活用することで、クリ

    OpenAI Responses API 入門 (11) - Computer use|npaka
    CLSmooth
    CLSmooth 2025/03/12
  • 自律言語エージェントを構築するためのフレームワーク Agents を試す|npaka

    自律言語エージェントを構築するためのフレームワーク「Agents」を試してみたので、まとめました。 1. Agents の概要「Agents」は、自律言語エージェントを構築するためのフレームワークです。 「コンフィグファイル」に自然言語で設定を記述するだけで、「言語エージェント」または「マルチエージェントシステム」をカスタマイズし、「ターミナル」「Gradio」「バックエンドサービス」にデプロイできます。 「Agents」と他の既存の言語エージェントフレームワークとの大きな違いの1つは、「SOP」(Standard Operation Process) を通じて言語エージェントにきめ細かい制御とガイダンスを提供できることです。「SOP」はタスク全体のサブゴール / サブタスクを定義し、ユーザーが言語エージェントのきめ細かいワークフローをカスタマイズできるようにします。 2. Agentsが

    自律言語エージェントを構築するためのフレームワーク Agents を試す|npaka
  • 最近のLLMの学習法のまとめ - SFT・RLHF・RAG|npaka

    最近のLLMの学習法 (SFT・RLHF・RAG) をまとめました。 1. 教師ありファインチューニング (SFT : Supervised Fine-Tuning) 2. 人間のフィードバックからの強化学習 (RLHF : Reinforcement Learning from Human Feedback)

    最近のLLMの学習法のまとめ - SFT・RLHF・RAG|npaka
    CLSmooth
    CLSmooth 2023/09/08
  • GitHub Copilot Labs の使い方|npaka

    1. GitHub Copilot Labs「GitHub Copilot Labs」は、「GitHub Copilot」の実験的な機能を提供するVSCode拡張です。 以下の機能を提供しています。 ・コードの説明 ・コードを別の言語に翻訳 ・コードの編集 ・読みやすさの向上 ・型の追加 ・バグ修正 ・デバッグコードの追加・削除 ・コードをステップ毎に説明 ・コードの堅牢化 ・コードの分割 ・ドキュメントの追加 ・カスタム ・テストコードの生成 また、「GitHub Copilot Labs」では「GitHub Copilot」とは別の規約が適用されます。より多くの情報を収集する可能性があります。これは、実稼働ではなく、学習を目的として設計されているためになります。 2. GitHub Copilot Labsの開始「GitHub Copilot Labs」の開始手順は、次のとおりです。

    GitHub Copilot Labs の使い方|npaka
    CLSmooth
    CLSmooth 2023/07/17
  • LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ |npaka

    「LLM」の「LoRA」「RLHF」によるファインチューニング用のツールキットをまとめました。 1. PEFT「PEFT」は、モデルの全体のファインチューニングなしに、事前学習済みの言語モデルをさまざまな下流タスクに適応させることができるパッケージです。 現在サポートしている手法は、次の4つです。 ・LoRA ・Prefix Tuning ・P-Tuning ・Prompt Tuning ◎ LLaMA + LoRA 「Alpaca-LoRA」は、「LLaMA」に「LoRA」を適用して「Alpaca」の結果を再現するためのコードが含まれているリポジトリです。「finetune.py」がLoRAの参考になります。 ・tloen/alpaca-lora ◎ RedPajama-INCITE + LoRA 「INCITE-LoRA」は、「RedPajama-INCITE」に「LoRA」を適用する

    LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ |npaka
    CLSmooth
    CLSmooth 2023/05/13
  • RLHF (人間のフィードバックからの強化学習) の図解|npaka

    以下の記事が面白かったので、軽く要約しました。 ・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依存するため、定義することが困難です。 「良い」テキストを生成するための損失関数の設計は難しく、ほとんどの言語モデルは、まだ単純な次のトークン予測損失(クロスエントロピーなど)で学習しています。この損失自体の欠点を補うために、BLEUやROUGEなどの人間の好みをよりよく捉えるように設計された指標も定義されています。しかしこれらは、能力測定において損失関数より適してますが、生成されたテキストを単純なルールで参照比較するため、制限があり

    RLHF (人間のフィードバックからの強化学習) の図解|npaka
    CLSmooth
    CLSmooth 2023/04/29
  • Google Colab で LangChain + RWKV を試す|npaka

    Google Colab」で「LangChain + RWKV」を試したので、まとめました。 【注意】「Google Colab」で「RWKV-v4-14B」を実行するには、「Google Colab Pro/Pro+」のプレミアムが必要です。 前回 1. LangChain + RWKV「LangChain」は「GPT-4」「GPT-3.5」だけでなく、様々な言語モデルをLLMとして利用できます。しかし「GPT-4」「GPT-3.5」以外で、「LangChain」のエージェント機能を制御できるほどの能力を持つ「LLM」は、まだありません。 そこで今回は、「LangChain + RWKV」を使って、「LlamaIndex」のQAプロンプトをどの程度制御できるかを確認することにします。 ・gpt-index/prompts/default_prompts.py DEFAULT_TEXT_

    Google Colab で LangChain + RWKV を試す|npaka
    CLSmooth
    CLSmooth 2023/04/19
  • OpenAI API で提供されている モデル まとめ|npaka

    1. OpenAI APIのモデル「OpenAI API」は、用途に応じて「GPT-3.5」をはじめとする様々なモデル を提供しています。 ・GPT-3.5 : 自然言語とコードを理解および生成する最新モデル。 ・DALL-E : 自然言語から画像を生成・編集するモデル ・Whisper : 音声をテキストに変換するモデル ・Embeddings : 埋め込み (ベクトル表現) を生成するモデル ・Codex : コードを理解および生成するモデル ・Moderation : センシティブおよび 安全でない文章を検出するモデル ・GPT-3 : 自然言語を理解および生成する旧モデル 2. GPT-3.5「GPT-3.5」は、自然言語とコードを理解および生成する最新モデルです。最も高性能で費用対効果の高いモデルは、チャット用に最適化されていますが、既存タスクにも適している「gpt-3.5-tu

    OpenAI API で提供されている モデル まとめ|npaka
    CLSmooth
    CLSmooth 2023/03/04
  • 最近話題になった 音楽生成AI まとめ|npaka

    最近話題になった「音楽生成AI」をまとめました。 1. AudioGenテキストからオーディオを生成するAIモデルです。「風が吹く中で口笛をする音」や 「大勢の歓声の中で話す男性の声」といったテキストから、それらしい音を生成してくれます。 現在のところ、モデルやAPIは提供されていません。 We present “AudioGen: Textually Guided Audio Generation”! AudioGen is an autoregressive transformer LM that synthesizes general audio conditioned on text (Text-to-Audio). 📖 Paper: https://t.co/XKctRaShN1 🎵 Samples: https://t.co/e7vWmOUfva 💻 Code & mod

    最近話題になった 音楽生成AI まとめ|npaka
    CLSmooth
    CLSmooth 2022/11/06
  • Unity ML-Agents 0.11.0のチュートリアル|npaka

    1. Unity ML-Agents「Unity ML-Agents」は、Unity で「強化学習」の「環境」を構築し、「エージェント」の学習および推論を行うためのフレームワークです。 最新版「0.11.0」では、「BroadcastHub」「Brain」が廃止され、よりシンプル&スマートになりました。サンプルの学習環境「3DBall」を使って、学習および推論の手順を解説します。 ・Unity ML-Agents 2. 開発環境の準備◎ Unityの開発環境のインストール 「Unity ML-Agents」を利用するには、「Unity 2017.4」以降が必要になります。今回は「2019.2.2f1」を使っています。 以下のサイトからダウンロード後、インストールしてください。 ・Unityのダウンロード ◎ Unity ML-Agentsのリポジトリのダウンロード 「Unity ML-Ag

    Unity ML-Agents 0.11.0のチュートリアル|npaka
    CLSmooth
    CLSmooth 2019/11/17
  • 1