タグ

ブックマーク / note.com/npaka (78)

  • LangChain v0.3 クイックスタートガイド - Python版|npaka

    Python版の「LangChain」のクイックスタートガイドをまとめました。 ・langchain 0.3.0 1. LangChain「LangChain」は、「大規模言語モデル」 (LLM : Large language models) と連携するアプリの開発を支援するライブラリです。 「LLM」という革新的テクノロジーによって、開発者は今まで不可能だったことが可能になりました。しかし、「LLM」を単独で使用するだけでは、真に強力なアプリケーションを作成するのに不十分です。真の力は、それを他の 計算 や 知識 と組み合わせた時にもたらされます。「LangChain」は、そのようなアプリケーションの開発をサポートします。 3. LangChain のモジュール「LangChain」は、言語モデル アプリケーションの構築に使用できる多くのモジュールを提供します。モジュールを組み合わせて

    LangChain v0.3 クイックスタートガイド - Python版|npaka
  • OpenAI API の Structured Outputs の使い方|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Introducing Structured Outputs in the API 1. Structured Outputs昨年のDevDayで、「JSONモード」を導入しました。これは、OpenAIのモデルを使用して信頼性の高いアプリを構築しようとしている開発者にとって便利な構成要素です。「JSONモード」は、有効なJSON出力を生成するためのモデルの信頼性を向上させますが、モデルの応答が特定のスキーマに準拠することを保証するものではありません。日、APIに「Structured Outputs」を導入します。これは、モデルによって生成された出力が、開発者が提供するJSONスキーマと完全に一致するように設計された新機能です。 複雑なJSONスキーマのフォローの評価では、「Structured Outputs」を備えた新しいモデル「g

    OpenAI API の Structured Outputs の使い方|npaka
    misshiki
    misshiki 2024/08/08
    “APIに「Structured Outputs」を導入します。これは、モデルによって生成された出力が、開発者が提供するJSONスキーマと完全に一致するように設計された新機能です。”
  • GPT-4o mini の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・GPT-4o mini: advancing cost-efficient intelligence 1. GPT-4o mini の概要「GPT-4o mini」は、インテリジェンスをより手頃な価格にすることで、AIで構築されるアプリの範囲を大幅に拡大すると期待しているモデルです。MMLUで82%のスコアを獲得し、現在「LMSYS leaderboard」のチャットで「GPT-4」を上回っています。価格は、入力トークン100万個あたり15セント、出力トークン100万個あたり60セントで、以前のモデルよりも1桁手頃な価格で、「GPT-3.5 Turbo」よりも60%以上安価です。 「GPT-4o mini」は、低コストと低レイテンシで、複数のモデル呼び出しを連鎖または並列化するアプリ (複数のAPIの呼び出しなど)、大量のコンテキストをモ

    GPT-4o mini の概要|npaka
  • Anthropic Consoleで プロンプトの生成・テスト・評価 を試す|npaka

    2. プロンプトの生成・テスト・評価プロンプトの生成・テスト・評価の手順は、次のとおりです。 2-1. プロンプトの生成(1) 「Anthropic Console」を開き、「Generate a prompt」をクリック。 (2) 作成したいプロンプトのタスクを入力。 今回は、「文書を最大10個の箇条書きにまとめる」と入力し、「Generate Prompt」ボタンをクリック。 プロンプトが自動生成されます。 (3) 「Continue」ボタンをクリック。 テスト画面に遷移します。 あなたは与えられた文書を簡潔に要約するタスクを行います。以下の文書を読み、最大10個の箇条書きにまとめてください。 <document> {{DOCUMENT}} </document> 以下の指示に従って要約を作成してください: 1. 文書の主要なポイントや重要な情報を特定してください。 2. 各箇条書きは

    Anthropic Consoleで プロンプトの生成・テスト・評価 を試す|npaka
    misshiki
    misshiki 2024/07/11
    “「Anthropic Console」で プロンプトの生成・テスト・評価の機能 を試したので、まと”
  • Claude 3.5 Sonnet の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Claude 3.5 Sonnet 1. Claude 3.5 Sonnet日 (2024年6月21日)、「Claude 3.5 Sonnet」がリリースしました。これは、今後リリースされる「Claude 3.5」モデルファミリーの最初のリリースです。「Claude 3.5 Sonnet」は、インテリジェンスの業界標準を引き上げ、幅広い評価で競合モデルや「Claude 3 Opus」を上回り、中間層モデルである 「Claude 3 Sonnet」の速度とコストを備えています。 「Claude 3.5 Sonnet」は現在、Claude.aiとClaude iOSアプリで無料で利用できます。「Claude Pro」および「Teamプラン」の加入者は、大幅に高いレート制限でアクセスできます。「Anthropic API」「Amazon Be

    Claude 3.5 Sonnet の概要|npaka
  • Apple Intelligence の機能|npaka

    Apple Intelligence」の機能をまとめました。 ・Apple Intelligence - Apple Developer 1. Apple Intelligence「Apple Intelligence」は、iPhoneiPadMacに強力な生成モデルを組み込み、ユーザーのコミュニケーション、作業、自己表現をサポートするパーソナルインテリジェンスシステムです。これら「Apple Intelligence」の機能をアプリに組み込むことができます。 2. Writing Tools「Writing Tools」はシステム全体で利用でき、ユーザーがテキストを書き直したり、校正したり、要約したりするのに役立ちます。「TextField」をレンダリングするために標準のUIフレームワークのいずれかを使用している場合、アプリは自動的に「Writing Tools」を使用できるように

    Apple Intelligence の機能|npaka
    misshiki
    misshiki 2024/06/13
    “1. Writing Tools、2. Image Playground、3. Genmoji、4. Siri with App Intents”
  • Phi-3-vision ・ Phi-3-medium ・ Phi-3-small の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・New models added to the Phi-3 family, available on Microsoft Azure 1. Phi-3「Phi-3」は、最も有能で費用対効果のSML (Small Language Model) であり、さまざまな言語、推論、コーディング、数学のベンチマークで同じサイズと次のサイズのモデルを上回っています。Tiny but mighty: The Phi-3 Small Language Modelsで説明されているように、「Phi-3」は高品質の学習データで学習されています。 2. Phi-3 のモデル一覧「Phi-3」は、4種類のモデルが提供されています。 ・Phi-3-vision : 言語と視覚機能を備えた4.2Bのマルチモーダルモデル ・Phi-3-medium : 14Bの言語モ

    Phi-3-vision ・ Phi-3-medium ・ Phi-3-small の概要|npaka
    misshiki
    misshiki 2024/05/22
    “「Phi-3」は、最も有能で費用対効果のSML (Small Language Model) であり、さまざまな言語、推論、コーディング、数学のベンチマークで同じサイズと次のサイズのモデルを上回っています。”
  • Gemini 1.5 Pro のアップデート ・ Gemini 1.5 Flash ・ PaliGemma ・ Gemma 2|npaka

    Gemini 1.5 Pro のアップデート ・ Gemini 1.5 Flash ・ PaliGemma ・ Gemma 2 以下の記事が面白かったので、簡単にまとめました。 ・Gemini 1.5 Pro updates, 1.5 Flash debut and 2 new Gemma models 1. はじめに昨年12月、「Gemini 1.0」をリリースし、「Gemini API」を「Google AI Studio」および「Vertex AI」で利用できるようにしました。2月に、100万トークンのコンテキストウィンドウを備えた最初のモデルである「Gemini 1.5 Pro」をリリースしました。先月、ネイティブ音声理解、システム指示、JSON モードなどの機能を追加しました。 並行して、「Gemma」を立ち上げました。これは、「Gemini」と同じ研究とテクノロジーに基づいて構

    Gemini 1.5 Pro のアップデート ・ Gemini 1.5 Flash ・ PaliGemma ・ Gemma 2|npaka
  • PaliGemma の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・PaliGemma – Google's Cutting-Edge Open Vision Language Model 1. PaliGemma「PaliGemma」は、画像エンコーダーとしての「SigLIP-So400m」とテキスト デコーダーとしての「Gemma-2B」で構成されるアーキテクチャを備えたビジョン言語モデルです。「SigLIP」は画像と文字の両方を理解できる最先端のモデルです。「CLIP」と同様に、共同で学習された画像とテキストのエンコーダーで構成されます。「PaLI-3」と同様に、結合された「PaliGemma」モデルは画像とテキストのデータで事前学習されており、キャプションや参照セグメンテーションなどの下流タスクで簡単にファインチューニングできます。「Gemma」は、テキスト生成のためのデコーダー専用モデルです。リ

    PaliGemma の概要|npaka
    misshiki
    misshiki 2024/05/15
    翻訳まとめ記事
  • GPT-4o の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

    GPT-4o の概要|npaka
  • OpenAI の Model Spec の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 Exampleは省略してるので元記事で確認してください。 ・Model Spec (2024/05/08) 1. Model Spec の概要1-1. Model Spec の概要これは「Model Spec」の最初のドラフトであり、OpenAI APIおよびChatGPTでのモデルの望ましい動作を指定する文書です。これには、一連の中核目標と、矛盾する目標や指示に対処する方法に関するガイダンスが含まれています。 OpenAIの目的は、研究者やデータラベル作成者がRLHF と呼ばれる手法の一部としてデータを作成するためのガイドラインとして「Model Spec」を使用することです。「Model Spec」はまだ現在の形式では使用していませんが、その一部はOpenAIでRLHFに使用したドキュメントに基づいています。また、モデルが「Model

    OpenAI の Model Spec の概要|npaka
    misshiki
    misshiki 2024/05/13
    “「Model Spec」の最初のドラフトであり、OpenAI APIおよびChatGPTでのモデルの望ましい動作を指定する文書です。これには、一連の中核目標と、矛盾する目標や指示に対処する方法に関するガイダンスが含まれています。”
  • Dify で RAG を試す|npaka

    1. RAG「RAG」(Retrieval Augmented Generation) は、最新の外部知識の習得とハルシネーションの軽減という、LLMの2つの主要課題に対処するためのフレームワークです。開発者はこの技術を利用して、AI搭載のカスタマーボット、企業知識ベース、AI検索エンジンなどをコスト効率よく構築できます。これらのシステムは、自然言語入力を通じて、さまざまな形態の組織化された知識と相互作用します。 下図では、ユーザーが「アメリカの大統領は誰ですか?」と尋ねると、システムは回答のためにLLMに質問を直接渡しません。代わりに、ユーザーの質問について、知識ベース (Wikipediaなど) でベクトル検索を実施します。意味的な類似性マッチングを通じて関連するコンテンツを見つけ (たとえば、「バイデンは現在の第46代アメリカ合衆国大統領です...」)、LLMに発見した知識とともにユ

    Dify で RAG を試す|npaka
  • Dify の ワークフロー の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Workflow - Dify 1. ワークフロー1-1. ワークフロー「ワークフロー」は、複雑なタスクを小さな「ノード」に分割することで、LLMアプリケーションのモデル推論への依存を減らし、システムの説明可能性、安定性、耐障害性を向上させます。 「ワークフロー」の種類は、次のとおりです。 ・Chatflow :  顧客サービス、セマンティック検索など、応答作成に複数ステップのロジックを必要とする会話シナリオ用 ・Workflow : 高品質な翻訳、データ分析、コンテンツ作成、電子メールの自動化など、自動化・バッチ処理シナリオ用 1-2. Chatflow自然言語入力におけるユーザー意図認識の複雑さに対処するため、「質問分類」「質問書き換え」「サブ質問分割」などの問題理解ノードを提供します。さらに、LLMに外部環境との対話機能、すなわち「

    Dify の ワークフロー の概要|npaka
  • MLX で Llama 3 を試す|npaka

    「MLX」で「Llama 3」を試したので、まとめました。 1. Llama 3「Llama 3」は、Metaが開発したオープンモデルです。 2. 推論の実行「MLX」は、Appleが開発した新しい機械学習フレームワークで、「Apple Silicon」(M1/M2/M3など) を最大限に活用するように設計されています。 推論の実行手順は、次のとおりです。 (1) Pythonの仮想環境の準備。 今回は、「Python 3.10」の仮想環境を準備しました。 (2) パッケージのインストールと実行。 今回は「mlx-community/Meta-Llama-3-8B-Instruct-4bit」のモデルを利用します。 pip install mlx-lm mlx_lm.generate --model mlx-community/Meta-Llama-3-8B-Instruct-4bit -

    MLX で Llama 3 を試す|npaka
    misshiki
    misshiki 2024/04/22
    “「MLX」は、Appleが開発した新しい機械学習フレームワークで、「Apple Silicon」(M1/M2/M3など) を最大限に活用するように設計されています。”
  • Command R の 概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Command R: Retrieval-Augmented Generation at Production Scale 1. Command R「Command R」は、「RAG」や「Tool」などの長いコンテキストタスク向けに最適化されたLLMです。CohereのEmbeddingおよびRerankと連携して動作するように設計されており、RAGアプリケーションに最高クラスの統合を提供し、エンタープライズユース ケースで優れています。 特徴は、次のとおりです。 ・RAGとToolの使用に関する高い精度 ・低遅延、高スループット ・128Kコンテキスト長、価格が安い ・10の主要言語に対応 (日語含む) ・研究・評価のためにHuggingFaceでウェイトを公開 「Command R」は、Cohere のホストAPIですぐに利用でき

    Command R の 概要|npaka
    misshiki
    misshiki 2024/04/05
    “「Command R」は、「RAG」や「Tool」などの長いコンテキストタスク向けに最適化されたLLMです。”
  • GaLore - 家庭用ハードウェアでの大規模モデルの学習|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・GaLore: Advancing Large Model Training on Consumer-grade Hardware 1. GaLore「GaLore」は、「NVIDIA RTX 4090」などの家庭用GPU上で、Llamaなどの最大7Bパラメータを持つモデルの学習を容易にします。これは、学習プロセス中のオプティマイザの状態と勾配に従来関連付けられていたメモリ要件を大幅に削減することによって実現されます。 2. オプティマイザ状態でのメモリ効率オプティマイザ状態は、特にAdamのような適応最適化アルゴリズムでは、モデルの学習中のメモリフットプリントの重要な部分を占めます。「GaLore」は、オプティマイザによって処理される前に、勾配を低次元の部分空間に投影することでこの問題に対処します。これにより、これらの状態を保存するため

    GaLore - 家庭用ハードウェアでの大規模モデルの学習|npaka
    misshiki
    misshiki 2024/03/25
    “「GaLore」は、「NVIDIA RTX 4090」などの家庭用GPU上で、Llamaなどの最大7Bパラメータを持つモデルの学習を容易にします。”
  • ロングコンテキストLLMに対応したRAGの新アーキテクチャ|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Towards Long Context RAG - LlamaIndex 1. はじめにGoogleは、1Mコンテキストウィンドウを持つ「Gemini 1.5 Pro」をリリースしました。初期ユーザーは、数十もの研究論文や財務報告書を一度に入力した結果を共有しており、膨大な情報を理解する能力という点で印象的な結果を報告しています。 当然のことながら、ここで疑問が生じます。「RAG」は死んだのでしょうか?そう考える人もいますが、そうではない人もいます。 幸運にも「Gemini 1.5 Pro」の機能をプレビューすることができ、それを試してみることで、ロングコンテキストLLMを適切に使用するには、RAGがどのように進化するのかについてのまとめました。 2. Gemini 1.5 Pro の 初期観察「Gemini」の結果は印象的で、テクニカ

    ロングコンテキストLLMに対応したRAGの新アーキテクチャ|npaka
    misshiki
    misshiki 2024/03/04
    “ロングコンテキストLLMを適切に使用するには、残りの制約を回避しながら、その機能を最大限に活用するために、RAGの新アーキテクチャが必要になります。”
  • Googleのオープンモデル Gemma の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Gemma: Introducing new state-of-the-art open models 1. Gemma「Gemma」は、「Gemini」と同じ技術を基に構築された、軽量で最先端のオープンモデルです。「Google DeepMind」と「Google」の他のチームによって開発された「Gemma」は、「Gemini」からインスピレーションを受けており、その名前はラテン語で「宝石」を意味するgemmaを反映しています。モデルの重み付けに伴い、開発者のイノベーションをサポートし、コラボレーションを促進し、「Gemma」の責任ある使用をガイドするためのツールもリリースします。 「Gemma」は日より世界中で利用可能になります。 知っておくべき重要な詳細は次のとおりです。 ・「Gemma 2B」「Gemma 7B」の2つのサイズの

    Googleのオープンモデル Gemma の概要|npaka
    misshiki
    misshiki 2024/02/22
    “その名前はラテン語で「宝石」を意味するgemmaを反映しています。”“「Keras 3.0」を介して、JAX、PyTorch、TensorFlow など...”
  • LangChain v0.1 クイックスタートガイド - Python版|npaka

    Python版の「LangChain」のクイックスタートガイドをまとめました。 ・langchain 0.1.16 1. LangChain「LangChain」は、「大規模言語モデル」 (LLM : Large language models) と連携するアプリの開発を支援するライブラリです。 「LLM」という革新的テクノロジーによって、開発者は今まで不可能だったことが可能になりました。しかし、「LLM」を単独で使用するだけでは、真に強力なアプリケーションを作成するのに不十分です。真の力は、それを他の 計算 や 知識 と組み合わせた時にもたらされます。「LangChain」は、そのようなアプリケーションの開発をサポートします。 主な用途は、次の3つになります。 ・文書に関する質問応答 ・チャットボット ・エージェント v0.1 ではlangchainパッケージが次の3つのパッケージに分割

    LangChain v0.1 クイックスタートガイド - Python版|npaka
    misshiki
    misshiki 2024/02/19
    “Python版の「LangChain」のクイックスタートガイドをまとめ”
  • OpenAI Sora の 概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Sora 1. Sora「Sora」は、テキスト指示から現実的で想像力に富んだシーンを作成できる、動画生成モデルです。 OpenAIでは、人々が現実世界の相互作用を必要とする問題を解決するのに役立つ学習モデルを目標に、動いている物理的な世界を理解してシミュレートするようにAIを教えています。 Introducing Sora, our text-to-video model. Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W Prompt: “Beau

    OpenAI Sora の 概要|npaka
    misshiki
    misshiki 2024/02/16
    日本語にまとめ直してくれている。“「Sora」は、視覚品質とユーザーのプロンプトの遵守を維持しながら、最大1分間の動画を生成できます。”