[B! prompt][*program] [5ページ] sh19910711のブックマーク

LLMによるLLMの評価（LLM as a judge）の精度改善のための試行錯誤〜評価分割・モデル間比較

LLM-as-a-Judgeとは LLMをアプリケーションに組み込んでいると、LLMの出力を評価する必要が出てきます。 LLMの「出力は確率的である（毎回異なる）」ためです。また、LLMの出力はハルシネーションを含む可能性がありますし、間違いではないにしてもサービス提供者の意図とは違った出力をエンドユーザーに提示してしまうかもしれません。 LLMの出力を評価して、出力が適切でないことを判定できれば、ユーザーには表示しない、出力を再度行わせる（出力をLLMに修正させるのもよいでしょう）というようなことができるようになります。ただし、LLMのすべての出力を人が評価していたのでは、手が回りません。そこで、注目されているのが、LLM-as-a-Judgeと呼ばれるLLMにLLMの出力を評価させる手法（以後、単に評価と呼ぶ）です。評価にLLMを使えば、出力をすぐに評価し、評価結果をアプリケー

sh19910711 2024/06/06

"LLM-as-a-Judge: LLMにLLMの出力を評価させる / GPT-4 Turboが最も精度が高いという結果 + 私たちの記述するプロンプトがGPT-4 Turboに最適化されているためにGPT-4 Turbo以外は、本来のポテンシャル以上に精度が低くなっている"

リンク

ChunkLlamaによる追加学習なしのLLMコンテキスト拡張を試す - Qiita

概要 LLMのコンテキスト長は、基本的にモデル学習時の系列長の長さに制限されます。これに対し、モデルの元々のコンテキスト長よりも大きなコンテキスト長を実現する技術がいわゆるコンテキスト拡張です。多くのコンテキスト拡張の手法では長い系列長のデータを使った追加の学習が必要となります。必要な学習量の大小には差がありますが、そもそも学習のための機器の準備や設定、データセットの用意など一般ユーザにとってはハードルが高いものになります。これに対し、ChunkLlamaという手法では追加の学習を必要とせずコンテキスト拡張を実現します。この手法をMistral-7bベースのモデルに対して適用し、推論や様々なテストを試しました。目次 ChunkLlamaについて Mistralベースのモデルで試す ChunkLlama（ChunkMistral）の適用方法実際に推論してみる PPL（Perplexi

sh19910711 2024/06/02

"LLMのコンテキスト長: 学習時の系列長の長さに制限 / ChunkLlama: Dual Chunk Attention（DCA）という機構の導入 + 追加の学習を必要とせずコンテキスト拡張を実現 / 連続するチャンク間でのトークンの関係性を詳細にとらえる"

リンク

小規模なLLMのMerge(圧縮・強化)、GGUF化と量子化、Ollamaの使い方の注意点 - Qiita

本記事はパラメータが3B（30億パラメータ）以下の比較的小規模なLLMのマージや量子化の効率的な処理方法と、それをローカルで動かす際の、Ollamaの使い方の注意点についてまとめたものです。実際に実行した環境は以下の通りです。・ローカルPC：　M1 Macbook Air Ventura13.6.7 メモリ８GB CPU８コア・GPU７コアモデルのマージ比較的簡単にモデルのマージをしたい場合には、定番のMergekitがお勧めですが、更にインストールや各種設定等の手間も省きたい人にお勧めなのはLazyMergekitです。リンク：LazyMergekitのnotebook(Github: mlabonne/llm-course）このGithubサイトにあるLazyMergekitのnotebookリンクを開き、自分のGoogleDriveにコピーして使います。最初マージに必要な設

sh19910711 2024/05/31

"簡単にモデルのマージをしたい場合には定番のMergekit / 各種設定等の手間も省きたい人にお勧めなのはLazyMergekit / slerp: 複数回マージすると日本語能力が向上したりという裏技的な手法もある"

リンク

ELYZA LLM for JP (デモ版)についての解説: (1) 70Bモデルの推論基盤

はじめにこんにちは。ELYZA のML Engineeringチームの堀江 (@eemon18)、村山 (@zakktakk)です。本記事では、弊社が2024/03/11にリリースした下記のデモについて、どのように70Bという巨大なモデルをホスティングしているのかを解説します。まだデモを直接触れたことがないという方はぜひ一度以下のURLからアクセスし、140GBを超えるバイナリファイルからなるモデルがどのくらい高速に動作するのかを確かめてみてください。本記事ではまず弊社推論アーキテクチャについて説明し、その後70Bを運用する際の技術選定や高速化の工夫について解説します。推論アーキテクチャ弊社のLLMアプリケーションのアーキテクチャは、平易に表すと以下の図のように構成されています。LLMの推論処理には時間がかかるため、アプリケーションと推論インスタンスはメッセージキューを介して非

sh19910711 2024/05/31

"機密性の高いデータの暗号化・復号化など推論処理以外に実装が必要な部分が多く / A100, A10Gインスタンスは特に日本リージョンで確保が難しい / 現実的に運用可能なラインとしてA10G, L4, そしてinf2インスタンスに絞り"

リンク

ChatGPT(GPT4)と一緒に代数学を勉強してみたらなんか謝られた - ashiato45の日記

これは何？最近ちびちび宮西正宜・増田佳代さんの「代数曲線入門」を読んでいるのですが、わからないところにあたったときに片手間の数学だとなかなか進まないものです。代数曲線入門作者:正宜, 宮西,佳代, 増田共立出版Amazon そんな折OpenAIのChatGPTの新バージョン、GPT4の性能が高いと聞いたので、「試してやろう」とかそういう気持はなく、単に一緒に学ぶパートナーとしてGPT4を試してみることにしました。わからなかったところ 2.3節「代数曲線の局所環」で、Cをf(X,Y)=0で定まる既約代数曲線とし、Rを座標環k[X, Y]/f(X, Y)としたとき、Cの点とRの極大イデアルが一対一対応するという話をしています。ここで、極大イデアルから点をつくり、そこからまた同じ極大イデアルに戻るところを議論するところで次のように書いてあります。ここで、θはk[X,Y]からRへの全射です

sh19910711 2024/05/30

"わからないところにあたったときに片手間の数学だとなかなか進まない / GPT-4: ちょっと込み入った議論になるとやっぱり苦しくなる + 間違った証明をしてくるのもこちらが煮詰っているときのヒントにはなりそう" 2023

リンク

プロンプトからREST APIを作るサービス『Hanabi.REST』の技術構成

Hanabi.REST AIにHonoJSのバックエンドを書かせて遊ぶ、Hanabi.RESTというサービスを一般公開します。それに際して、この記事では、Hanabiの紹介と簡単に技術スタックを解説していきます。皆さんは、AIがプロンプトからUIを生成する、V0というサービスをご存じですか？僕はあれを見たときに、ある妄想が膨らみました。「V0のAPI版があれば、プロンプトからWebアプリケーションを作れるやん！！」と。当初はハッカソン用の小プロジェクトとして始めましたが、想定以上に面白い結果が得られたため、開発を継続することにしました。技術的な制約、様々な黒魔術による不安定な挙動、LLMの劣化など、数多くの壁を乗り越えながら、約半年をかけてようやくリリースに至りました！！次のリンクから実際にAIが生成したTwitter風のAPIを試すことが出来ます！また、会員登録すれば誰でもAP

sh19910711 2024/05/29

"速く、面白く、動くをコンセプトに開発 / プロンプトを元にAIがAPIの仕様を決めて、SQLを書き、HonoJSで実装 / 生成されたAPIは、ブラウザ上でそのまま試すことが出来る上に、ローカル環境にクローンしたり"

リンク

GPT-4oを使って画像を分析してみた - GMOインターネットグループグループ研究開発本部

TL;DR OpenAIは、2024/05/13にGPT-4oをリリースしました。GPT-4oは、画像とテキスト、音声などを同時に処理することができるモデルで、従来よりも高速な実行が可能です。 GPT-4 Turbo with visionで行ったように、GPT-4oのAPIを利用してグラフの解説を試したところ、ある程度はもっともらしい解説は可能ですが、やはり正確な数値の読み取りなどには課題が残る結果となりました。特にChatGPTでは、入力した画像だけではなく、既に学習済みの知識をカンニングしている可能性があります。ペンギンの性別や種のラベル、体重の数値を入れ替えた場合、これらの事前知識に影響されたと思われる回答が得られました。はじめにこんにちは、グループ研究開発本部・AI研究室のT.I.です。先日5/13に、OpenAIは新しいGPT-4o(omni)をリリースしました。GPT-

sh19910711 2024/05/29

"ChatGPTでは、入力した画像だけではなく、既に学習済みの知識をカンニングしている可能性があり / 数値を入れ替えた場合、これらの事前知識に影響されたと思われる回答が得られました"

リンク

Gemini 1.5 Proを使って自分の強みを分析してみた - G-gen Tech Blog

G-gen の神谷です。今回、Gemini 1.5 Pro を活用して、ビジネス心理テストであるストレングスファインダーで自身の強みを分析し、AI によるマネジメントやメンタリングが可能か、試してみました。本記事では、その取り組みの詳細をご紹介します。ストレングスファインダーとは Strength Mentor Bot の作成 Gemini 1.5 Pro を使った実装 34の資質を JSON 形式で抽出 BigQuery への保存と分析チームビルディングへの応用ストレングスファインダーとはまず、ストレングスファインダーについて説明します。ストレングスファインダーは、個人の強みを特定し、それを活かすための評価ツールです。クリフトンという心理学者によって開発され、現在はギャラップ社が提供しています。 34の資質（強み）を測定し、個人の弱みではなく強みに焦点を当てることで、より良いパ

sh19910711 2024/05/29

"以前はGemini 1.0を使っており、PDFの分割やチャンクごとのエンベディング抽出、類似ベクトル検索などの前処理が必要でしたが、Gemini 1.5 Proではそれらが不要に / PDFを読み込み、プロンプトと一緒にcontents配列に入れるだけ"

リンク

RAGで文書を1トークンに圧縮する「xRAG」について

株式会社ナレッジセンスは、生成AIやRAGを使ったプロダクトを、エンタープライズ向けに開発提供しているスタートアップです。本記事では、「xRAG」という手法について、ざっくり理解します。xRAGとは、RAGシステムでLLMに投げるドキュメント（通常、数千文字ほどですよね。）を、1トークンに圧縮できるのでは？という手法です。この記事は何この記事は、RAGをする際にLLMに渡すドキュメントを1トークンまで圧縮できる手法「xRAG」の論文[1]について、日本語で簡単にまとめたものです。今回も「そもそもRAGとは？」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。本題ざっくりサマリー xRAGは、RAGで渡すコンテキストを極限まで圧縮する手法です。北京大学/Microsoftの研究者らによって2024年5月に提案されました。xRAGを使うメリットは、コンテ

sh19910711 2024/05/29

"xRAG: RAGでLLMに渡す関連文書をベクトル形式のままに渡すことで1トークンで済ませよう / コンテキストを圧縮できるのでRAGの回答速度が早くなる / どうやってこの変換器を作るのかが論文で説明"

リンク

LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介 - Algomatic Tech Blog

こんにちは。Algomatic NEO(x) カンパニー機械学習エンジニアの宮脇（@catshun_）です。本記事ではブラウザやモバイル画面を操作する LLM エージェントとその周辺技術について超ざっくりと紹介します。社内に向けたキャッチアップ資料として作成しており、加筆修正する可能性がありますが、本記事を読んだ方の議論のネタ程度になってくれれば幸いです。以前 AI ソフトウェアエンジニアについて紹介しているので、こちらもご覧いただけたら幸いです。おことわり本記事では対象とする研究棟の詳細な解説は含みません。詳細は元の論文を参照ください。不十分また不適切な言及内容がありましたらご指摘いただけますと幸いです。プロダクト等の利用時は必ずライセンスや利用規約を参照して下さい。本記事の目次 Google I/O '24 での Gemini Nano × Android の発表

sh19910711 2024/05/29

"Gemini Nano: オンデバイス + スマホがネット環境下にない状態でも動作 + Pixel 8 Pro および Samsung S24 シリーズのデバイスでのみ利用可能 / HTLM: Common Crawl から抽出された HTML で学習された BART ベースのモデル"

リンク

ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化｜AIサトシ

大規模言語モデル（LLM）において、メモリ使用量の効率化は非常に重要です。特に長文処理を行う場合です。モデルに入力するコンテクストが長くなるほど、メモリ消費量も増加します。プロンプトに入力する文字数（Token数）と必要メモリについて計算したメモ📝 精度との兼ね合いですが、長文扱うときは、mistral-v0.1圧倒的にコスパ良い pic.twitter.com/Nqn5SXDZ9u — AI𝕏サトシ⏩ (@AiXsatoshi) May 27, 2024 Mistral-7Bは、v0.1では、約4K tokensのSliding window attention(SWA)にて、コンテクスト長に消費されるメモリを低減しました。しかし、性能への影響からと考えますが、v0.2以降のアップデートで、SWAは排除されています。入力トークンを絞ることでメモリ容量を低減すれば、当然複雑性や表現力

sh19910711 2024/05/29

"Mistral-7B: v0.2以降のアップデートでSWAは排除 + 入力トークンを絞ることでメモリ容量を低減すれば当然複雑性や表現力が低下 / KVキャッシュ量子化: 計算結果を保存して再利用 + 消費者向けGPUでより長いテキスト生成が可能"

リンク

Remix のドキュメントを Gemini 1.5 Flash で日本語化しました

Remix ドキュメント日本語版を公開しましたはじめにこの度、Remix の公式ドキュメントを日本語に翻訳し、「Remix ドキュメント日本語版」というサイトで公開しました。本記事では、Remix ドキュメントの翻訳を Remix を使って開発した内容について技術的な側面から説明します。また、これから Remix を使った開発を始めたい方に向けて、日本語版ドキュメントを活用いただく方法についてもご紹介します。日本語版ドキュメントの構成今回翻訳したRemixドキュメントは、以下のようなカテゴリに分かれています。 start: 5分でできるチュートリアルなど、Remixを始めるためのガイド。 discussion: Remixの設計思想や概念の解説。 file-conventions: ファイルベースルーティングや特別なファイルの規約。 route: ルートモジュールの仕様。 com

sh19910711 2024/05/29

"Gemini 1.5 Flash はマークダウンの記法を維持しつつ、英語のドキュメントを日本語に翻訳してくれます / 手作業のみでは難しい大量のドキュメント翻訳を効率的に進めることができました"

リンク

ChainlitとLangGraphを活用してAgentによる画像認識を実現する方法

はじめに 5月13日にGPT-4oがOpenAIから発表されました。この発表以降、Xでも多くの方がGPT-4oを試した感想を書いていました。その中で画像認識の精度が上がって、かなり使える機能になってきているとの話があり、気になったのでまずはAPIから使えるようにしてみました。 OpenAIのモデルがVisionに対応したのはだいぶ前になりますが、値段の割にあんまり精度が良くなさそうだったので、お恥ずかしながら今まで試したことがありませんでした。なので今回は、 VisionのAPIドキュメントを一通り読む Chainlitのマルチモーダル機能の挙動を確認する以前作成したChainlitとLangGraphのAgentアプリで画像認識をできるようにするという手順でやっていきたいと思います。 Vision APIのドキュメント確認まずはVisionの使い方やコストについて、Open

sh19910711 2024/05/29

"チャットに貼られた画像を使用したい / high: まず512px × 512pxのサイズに変換した画像を見る + 2048px × 768pxに収まるように画像をスケーリング + スケーリングした画像を512px × 512pxのタイルに分割"

リンク

Gemini API で動画の質問応答を試す｜npaka

「Gemini API」で動画の質問応答を試したので、まとめました。 1. Gemini 1.5 Pro の動画データ入力「Gemini 1.5 Pro」で動画データでの入力が可能になりました。サポートしているファイル形式は、次のとおりです。・MP4 : video/mp4 ・MPEG : video/mpeg ・MOV : video/mov ・AVI : video/avi ・FLV : video/x-flv ・MPG : video/mpg ・WebM : video/WebM ・WMV : video/WMV ・3GPP : video/3gpp 「File API」は動画を1フレーム/秒（FPS）でサンプリングしますが、最適な推論品質を提供するために変更される可能性があります。解像度や品質に関係なく、個々の画像は258トークンを使用します。 2. 動画の質問応答動画の質問

sh19910711 2024/05/28

"動画を1フレーム/秒（FPS）でサンプリングしますが、最適な推論品質を提供するために変更される可能性 / 解像度や品質に関係なく、個々の画像は258トークンを使用 / プロジェクト毎に最大20GBのファイルを保存"

リンク

最近は意図的にGitHub Copilotを無効にすることがある

別にみんなそうするべきとは全く思わないのだけど、僕は最近GitHub Copilotを意図的に無効にすることがあるので、そのへんについて雑に書いておく。あらかじめ言っておくが、僕はGitHub Copilotを有効にすることもある。この記事もGitHub Copilotおよびそのユーザーを批判する意図は全くない。 GitHub Copilot が便利な場面僕がGitHub Copilotを使い始めて少なくとも一年以上は経ってる。自分が書こうと思っているコードに近いものが簡単に生成されていくことに最初は感動したし、便利な場面がはたくさんある。具体的に便利な場面を思い返してみる。僕は仕事ではNext.jsでフロントエンドを書いたり、NestJSでバックエンドを書いたりしているのだが、その用途では便利だった。僕は自分が関わっているプロジェクトのReactやNode.jsの書き方はある程度

sh19910711 2024/05/28

"書こうと思っているコードがあるときに、それとは全く違うものが画面上に突然現れると、思考がそっちに引っ張られ~ / 自分で追いかけなら理解していく方が、そのプロジェクトのコードベースをより早く深く理解できる"

リンク

PDFをLLMで解析する前処理のパーサーは何が良いのか？（pdfminer, PyMuPDF, pypdf, Unstructured） - Qiita

PDFをLLMで解析する前処理のパーサーは何が良いのか？（pdfminer, PyMuPDF, pypdf, Unstructured）Python pdfminerPyMuPDFpyPDFUnstructured 現状の LLM は PDF ファイルを直接処理出来ない為、予めなんらかのプレーンテキスト形式に変換する必要があります。（PDFを読める各チャットアプリも内部的には何らかの手段でプレーンテキスト形式に変換しているはずです）変換を行ってくれるライブラリは複数存在する為、動作の違いを確認します。抽出プログラム抽出する対象のPDFファイルはBedrockユーザーガイドの日本語版を使います。

sh19910711 2024/05/28

"人間が読む分にはなんてことない表ですが、セルの中で改行されている時点でもう難易度が高い / PyMuPDFは同じセルのものはまとめて出力してくれています + 同じ行の中で左の列から順に出力してくれている"

リンク

サイバーセキュリティ法規を理解した生成AIアプリにセキュリティリスクを案出しさせる(Difyで簡単PoC)

Difyというツールを使うと、生成AIアプリを手軽に構築できると耳にしました。こちらの記事でも触れられていますが、私もちょうど「生成AIアプリのアイディアがあるけどPoCするには時間がかかりそう」と思っていたところだったので、Difyで簡単なRAGアプリを作成し、期待していたことがどこまでできるのか？検証してみました。 1. やりたいこと生成AIアプリに求める挙動ユーザーの入力: セキュリティリスクを想定するシステムやデータアプリの出力: 想定される脅威アプリが出力のベースに使うナレッジ: サイバーセキュリティ法規(UN-R155)の原文なぜ、上記のようなアプリを欲しいと思ったのか？自動車業界には、完成車メーカーが準拠しなければならないサイバーセキュリティ法規(UN-R155)があり、これに準拠していることを示すために様々なドキュメントを作成しなければならないという背景がありま

sh19910711 2024/05/28

"自動車業界には、完成車メーカーが準拠しなければならないサイバーセキュリティ法規(UN-R155) / UN-R155の知識をベースに生成AIが想定される脅威の案を出してくれたら嬉しい"

リンク

GPT から Claude 3 への移行ガイド - Gunosyデータ分析ブログ

こんにちは。Gunosy R&D チームの森田です。 GPT-4o が発表されたこのタイミングで！？という向きもあるかとおもいますが、LLMの世界は一ヶ月もすればまったく違う状況になっているのが常なので、いずれは GPT-4o を超えるモデルが発表される時も来るでしょう。 Claude 3 Opus は一時期 GPT-4 のスコアを超え、 Claude 3 Haiku では GPT-3.5-Turbo のトークン当たりで約半額とコストパフォーマンスに優れていますし、 AWS Bedrock 経由で安定して利用できることもあり、Claude 3 は乗り換え先の候補の一つです。 Claude 3 への乗り換えには、点々とつまづくポイントがあるので、引っかかった所と回避方法をご紹介します。今回紹介する内容はClaude 3に限らないものもありますので、ローカルLLM や他のLLM への乗り換え

sh19910711 2024/05/28

"GPTのプロンプトそのままでは、特に出力の制御が難しく + Prefill と呼ばれる回答形式を強制させるテク / 回答が難しい場合に、指定したフォーマットに加えて一言コメントを追加してしまう"

リンク

ChatGPT+LangChain| Elasticsearch公式ドキュメントのQ&Aを作ってみる

はじめにこの記事は、情報検索・検索技術 Advent Calendar 2023 の 11日目の記事です。本記事では、最新のElasticsearchの公式ドキュメントの内容を元にQ&Aを行うチャットボットを、LLMとLangChain、さらには、Elasticsearchのベクトル検索機能を使って作成したので、実現方法や利用した技術について紹介します。また、RAGを使ったWikipediaのQ&Aを作った話が、同アドベントカレンダーの4日目の記事で紹介されているので、気になる方はご参照ください。概要 LLMの問題点 OpenAIが提供するGPTや他の大規模言語モデル（LLM）の登場によって、簡単な質問に対しても優れた回答を得られるようになり、知識の取得や整理が容易になりました。一方で、2023年12月現在、一般的に提供されているGPTのバージョン3.5では、2022年1月以降の情

sh19910711 2024/05/27

"公式ドキュメントの内容を元にQ&Aを行うチャットボット / unstructured: LangChainでHTMLファイルを読み込むために利用 / decouple: 環境変数を読み込むために利用 + dotenvよりもキレイに書けたりセキュアな書き方もできる" 2023

リンク

MLXと⌘R+ (Command R+)でローカルチャットbotを動かしてみた

はじめに 96GB以上のUnified Memoryを積んだApple Siliconマシーンをお持ちの人向けのニッチな記事です。 MLXを使って、話題の⌘R+ (Command R+)を使ったローカルで動作するチャットbotをクイックに作ってみました。途中で何点かつまづいたので、困っている人に届いたら嬉しいです。以下の記事を参考にさせてもらいました。環境 Apple M3 MAX (128GB) 推論中のpythonプロセスのメモリ消費量は62GB程度でした。Unified Memory 64GBでスワップしながらギリ回るくらいですかね Python 3.10 (3.11, 3.12でも動作しました) 最初、Python 3.9環境で動かそうとしてコケました。エラーメッセージは以下の具合です。 ValueError: Received parameters not in model:

sh19910711 2024/05/27

"mlx_lm: MLXを用いてhugging faceのLLMを動かし ~ / M3 MAX: 推論中のpythonプロセスのメモリ消費量は62GB程度 + Unified Memory 64GBでスワップしながらギリ回る"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (88)

promptと*programに関するsh19910711のブックマーク (284)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス