yk_uminamiのブックマーク - はてなブックマーク

GPT-4o の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

yk_uminami 2024/05/14

LLM

リンク

Dify で RAG を試す｜npaka

1. RAG「RAG」(Retrieval Augmented Generation) は、最新の外部知識の習得とハルシネーションの軽減という、LLMの2つの主要課題に対処するためのフレームワークです。開発者はこの技術を利用して、AI搭載のカスタマーボット、企業知識ベース、AI検索エンジンなどをコスト効率よく構築できます。これらのシステムは、自然言語入力を通じて、さまざまな形態の組織化された知識と相互作用します。下図では、ユーザーが「アメリカの大統領は誰ですか？」と尋ねると、システムは回答のためにLLMに質問を直接渡しません。代わりに、ユーザーの質問について、知識ベース (Wikipediaなど) でベクトル検索を実施します。意味的な類似性マッチングを通じて関連するコンテンツを見つけ (たとえば、「バイデンは現在の第46代アメリカ合衆国大統領です...」)、LLMに発見した知識とともにユ

yk_uminami 2024/05/07

LLM

リンク

Command R の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。・Command R: Retrieval-Augmented Generation at Production Scale 1. Command R「Command R」は、「RAG」や「Tool」などの長いコンテキストタスク向けに最適化されたLLMです。CohereのEmbeddingおよびRerankと連携して動作するように設計されており、RAGアプリケーションに最高クラスの統合を提供し、エンタープライズユースケースで優れています。特徴は、次のとおりです。・RAGとToolの使用に関する高い精度・低遅延、高スループット・128Kコンテキスト長、価格が安い・10の主要言語に対応 (日本語含む) ・研究・評価のためにHuggingFaceでウェイトを公開「Command R」は、Cohere のホスト型APIですぐに利用でき

yk_uminami 2024/04/07

LLM

リンク

LangChain への OpenAIのRAG戦略の適用｜npaka

以下の記事が面白かったので、かるくまとめました。・Applying OpenAI's RAG Strategies 1. はじめに「Open AI」はデモデーで一連のRAG実験を報告しました。評価指標はアプリケーションによって異なりますが、何が機能し、何が機能しなかったかを確認するのは興味深いことです。以下では、各手法を説明し、それぞれを自分で実装する方法を示します。アプリケーションでのこれらの方法を理解する能力は非常に重要です。問題が異なれば異なる検索手法が必要となるため、「万能の」解決策は存在しません。 2. RAG スタックにどのように適合するかまず、各手法をいくつかの「RAGカテゴリ」に分類します。以下は、カテゴリ内の各RAG実験を示し、RAGスタックに配置する図です。 3. ベースライン距離ベースのベクトルデータベース検索は、クエリを高次元空間に埋め込み（表現）し、「距離」に基

yk_uminami 2023/11/19

LLM

リンク

OpenAI DevDay で発表された新モデルと新開発ツールまとめ｜npaka

以下の記事が面白かったので、かるくまとめました。・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造

yk_uminami 2023/11/07

LLM

リンク

LangChain クイックスタートガイド - Python版｜npaka

Python版の「LangChain」のクイックスタートガイドをまとめました。・LangChain v0.0.329 (2023/11/3) 1. LangChain「LangChain」は、「大規模言語モデル」 (LLM : Large language models) と連携するアプリの開発を支援するライブラリです。「LLM」という革新的テクノロジーによって、開発者は今まで不可能だったことが可能になりました。しかし、「LLM」を単独で使用するだけでは、真に強力なアプリケーションを作成するのに不十分です。真の力は、それを他の計算や知識と組み合わせた時にもたらされます。「LangChain」は、そのようなアプリケーションの開発をサポートします。主な用途は、次の3つになります。・文書に関する質問応答・チャットボット・エージェント 2. LangChain のモジュール「L

yk_uminami 2023/11/04

LLM

リンク

Streamlit 入門｜npaka

「Streamlit」の使いはじめ方をまとめました。 1. Streamlit「Streamlit」は、機械学習およびデータサイエンスのためのWebアプリケーションフレームを簡単に作成して共有できるPythonライブラリです。 2. HelloWorldの作成HelloWorldの作成手順は、次のとおりです。 (1) Pythonの仮想環境の準備。 (2) パッケージのインストール。 $ pip install streamlit(3) helloworld.pyの作成。・helloworld.py import streamlit as st st.text("Hello World!")(4) helloworld.pyの実行。 $ streamlit run helloworld.pyブラウザが自動的に開いて、Webアプリケーションが表示されます。 3. 風船を飛ばすボタンの作成あ

yk_uminami 2023/09/06

あとで読む

リンク

LLMのファインチューニングで何ができて何ができないのか｜npaka

LLMのファインチューニングで何ができて、何ができないのかまとめました。 1. LLMのファインチューニングLLMのファインチューニングの目的は、「特定のアプリケーションのニーズとデータに基づいて、モデルの出力の品質を向上させること」にあります。 OpenAIのドキュメントには、次のように記述されています。ファインチューニングは、プロンプトに収まるよりも多くの例で学習することで、Few-Shot学習を改善します。一度モデルをファインチューニングすれば、プロンプトにそれほど多くの例を提供する必要がなくなります。これにより、コストを削減し、低レイテンシのリクエストを可能にします。しかし実際には、それよりもかなり複雑です。 LLMには「大量のデータを投げれば自動的に解決する」ような創発的な特性があるため、ファインチューニングもそのように機能すると人々は考えていますが、必ずしもそうではありませ

yk_uminami 2023/08/29

LLM

リンク

ローカルLLMの情報まとめ｜npaka

「ローカルLLM」の記事が増えてきたのでまとめました。「Llama 2」ベースのローカルLLMについては、以下でまとめています。

yk_uminami 2023/06/11

リンク

OpenAI APIのファインチューニングの学習データのガイドライン｜npaka

以下の記事を元に、「OpenAI API」のファインチューニングの学習データのガイドラインをまとめました。 1. 学習データの書式ファインチューニングするには、単一の入力「プロンプト」とそれに関連する出力「コンプリーション」のペアで構成される学習データが必要です。これは、１回のプロンプトで詳細な手順や複数の例を入力するような、ベースモデルの使用方法とは大きく異なります。「学習データの書式」のガイドラインは、次のとおりです。・プロンプトが終了してコンプリーションが開始することをモデルに知らせるため、区切り記号 ("\n\n###\n\n"など) でプロンプトを終了する必要があります。区切り記号は、プロンプトの他の場所で使用されない文字列を指定します。・コンプリーションが終了することをモデルに知らせるため、停止記号 ("\n"、"###"など)でコンプリーションを終了する必要がありま

yk_uminami 2023/04/17

リンク

ChatGPTプラグインの概要｜npaka

「OpenAI」の「ChatGPTプラグイン」の記事が面白かったので、かるくまとめました。・Chat Plugins - OpenAI API ・ウェイトリスト 1. ChatGPTプラグイン「ChatGPTプラグイン」は、「ChatGPT」をサードパーティのアプリケーションに接続するためのプラグインです。「ChatGPT」は、開発者によって定義されたAPIと対話し、機能を強化し、幅広いアクションを実行できるようになります。次のような機能を追加できます。・リアルタイム情報の取得 (スポーツスコア、株価、最新ニュースなど) ・知識ベース情報の取得 (会社のドキュメント、個人的なメモなど) ・ユーザーに代わってアクションを実行 (フライトの予約、食べ物の注文など) プラグイン開発者は、マニフェストファイルとAPIエンドポイントを公開します。これらはプラグインの機能を定義し、「ChatGP

yk_uminami 2023/03/24

あとで読む

リンク

最近話題になった大規模言語モデルまとめ｜npaka

最近話題になった大規模言語モデルをまとめました。 1. クラウドサービス1-1. GPT-4「GPT-4」は、「OpenAI」によって開発された大規模言語モデルです。マルチモーダルで、テキストと画像のプロンプトを受け入れることができるようになりました。最大トークン数が4Kから32kに増えました。推論能力も飛躍的に向上しています。現在、「ChatGPT Plus」(有料版)で制限付きで利用できる他、ウェイトリストの登録者を対象に「OpenAI API」での利用も開始しています。

yk_uminami 2023/03/17

あとで読む

リンク

OpenAI API で提供されているモデルまとめ｜npaka

1. OpenAI APIのモデル「OpenAI API」は、用途に応じて「GPT-3.5」をはじめとする様々なモデルを提供しています。・GPT-3.5 : 自然言語とコードを理解および生成する最新モデル。・DALL-E : 自然言語から画像を生成・編集するモデル・Whisper : 音声をテキストに変換するモデル・Embeddings : 埋め込み (ベクトル表現) を生成するモデル・Codex : コードを理解および生成するモデル・Moderation : センシティブおよび安全でない文章を検出するモデル・GPT-3 : 自然言語を理解および生成する旧モデル 2. GPT-3.5「GPT-3.5」は、自然言語とコードを理解および生成する最新モデルです。最も高性能で費用対効果の高いモデルは、チャット用に最適化されていますが、既存タスクにも適している「gpt-3.5-tu

yk_uminami 2023/03/05

あとで読む

リンク

ChatGPT API の使い方｜npaka

「OpenAI」の記事「Chat completions」が面白かったので、軽くまとめました。 1. ChatGPT API「ChatGPT」は、OpenAIの最も先進的な言語モデルである「gpt-3.5-turbo」を搭載しています。「OpenAI API」から「gpt-3.5-turbo」を使用して独自アプリケーションを作成できます。・メールや文章のドラフト・Pythonコードの生成・一連の文書に関する質問応答・会話型エージェントの作成・ソフトウェアへの自然言語インターフェースの追加・さまざまな科目の家庭教師・言語の翻訳・ビデオゲームのキャラクターのシミュレート 2. 使用料金使用料金は、以下で確認できます。 3. Colab での実行「gpt-3.5-turbo」は、マルチターンの会話を簡単にするように設計されていますが、会話のないシングルターンタスクでも役立ちます

yk_uminami 2023/03/03

あとで読む

リンク

最近話題になった音楽生成AI まとめ｜npaka

最近話題になった「音楽生成AI」をまとめました。 1. AudioGenテキストからオーディオを生成するAIモデルです。「風が吹く中で口笛をする音」や「大勢の歓声の中で話す男性の声」といったテキストから、それらしい音を生成してくれます。現在のところ、モデルやAPIは提供されていません。 We present “AudioGen: Textually Guided Audio Generation”! AudioGen is an autoregressive transf ormer LM that synthesizes general audio conditioned on text (Text-to-Audio). 📖 Paper: https://t.co/XKctRaShN1 🎵 Samples: https://t.co/e7vWmOUfva 💻 Code & mod

yk_uminami 2022/11/08

リンク

はてなブックマーク

タグ

ブックマーク / note.com/npaka (15)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス