[B! llm] kiririmodeのブックマーク

OpenAI Platform

kiririmode 2024/06/09

LLMの正確性を向上させるステップ。まずはプロンプトエンジニアリング。その次は、課題がresponse accuracyにあればContext最適化、consistency of behaviorにあればFine-tuning

llm
ai

リンク

https://arxiv.org/pdf/2307.03172

kiririmode 2024/06/09

すべてのモデルにおいて、関連情報が文脈の先頭または末尾にあるときに最高の性能を示し、中央にあると性能が著しく低下する"Lost in the middle" 「U字型の性能カーブ」が観測された。

リンク

Large Language Models are Zero-Shot Reasoners

Pretrained large language models (LLMs) are widely used in many sub-fields of natural language processing (NLP) and generally known as excellent few-shot learners with task-specific exemplars. Notably, chain of thought (CoT) prompting, a recent technique for eliciting complex multi-step reasoning through step-by-step answer examples, achieved the state-of-the-art performances in arithmetics and sy

kiririmode 2024/06/02

「Let’s think step by step」を追加するだけで、ゼロショット推論でも高い性能を発揮することが示されている。実験結果は、多くの推論タスクで既存のゼロショットLLMの性能を大きく上回った

リンク

生成AIの能力をどう評価するか？ ~激化するLLM競争を正しく見極めるために~｜こへもこ

はじめにはじめまして、ウイングアーク１ｓｔのこへもこと申します。今回の記事では、大規模言語モデル（LLM: Large Language Models、以後LLM）の性能評価の裏側を紐解いていきたいと思います。生成AI（Generative AI）、特にLLMの進化は目覚ましいものがあります。GPT-4o, Claude 3, Gemini 1.5, command R+など数々のモデルが登場し、その驚異的な能力により、自然言語処理（NLP）の分野だけでなく、多くの産業で応用が広がっています。（2024年5月時点）多くの企業が自社のLLMの優れた性能をアピールしていますが、その発表を鵜呑みにすることは注意が必要です。各社の発表に対して、私たちが正しい目を養い、客観的かつ公正な視点でLLMを評価することが重要です。本記事では、LLMの評価に使用される「MMLU」という指標をベースに、

kiririmode 2024/06/02

LLMの性能評価指標としてのMMLU指標の概要・評価方法。内部ではプロンプトエンジニアリングとして0-shot Chain of Thoughtが使われている。

リンク

Helpfeelが「ChatGPT」を活用したFAQ作成支援ツールをリリース。3月8日から利用受付開始

「Helpfeel Generative Writer」では、メールやチャットなどの履歴から質問と回答をコピー＆ペーストすると、FAQのタイトルと本文が自動生成される。自動生成された文章はメールなどのやり取りに含まれる個人情報を除去した上で要約したもので、FAQの初稿として最適なテキストとなっている。エンドユーザーの問い合わせをもとにFAQの記事を作成する業務が「ChatGPT」の技術により負担軽減される。「Helpfeel」は、世界初の独自アルゴリズム「意図予測検索」を搭載した検索型FAQシステム。「意図予測検索」とは、FAQに入力された言葉から検索者が何を知りたいかの「意図」を予測し、その意図に合致する回答をすばやく検索するもの。検索ワードが曖昧だったり感覚的だったり、あるいはスペルミスや漢字／かなの表記揺れがあったりしても、疑問の解決につながる最適なFAQページをすばやく探し出すこ

kiririmode 2024/05/05

問い合わせと回答のペアから、FAQ自体を作成するアプローチ

llm
ai

リンク

ファミマ「生成AIで業務を50％削減」の事例も　企業が活用するためのポイントとは？

ファミマ「生成AIで業務を50％削減」の事例も　企業が活用するためのポイントとは？（1/3 ページ）レノン株式会社代表取締役 CEO 城北宣広株式会社（広告業）社外取締役著書に「小売業DX成功と失敗」（同文館出版）などがある。グローバル総合コンサルファームであるKPMGコンサルティングにて小売企業を担当するセクターのディレクターとして大手小売企業の制度改革、マーケティングシステム構築などDX領域のコンサルティングを多数経験。世界三大戦略コンサルファームとも言われている、ベイン・アンド・カンパニーにおいて2020年より小売業・消費財メーカー担当メンバーとして大手小売企業の戦略構築支援及びコロナ後の市場総括を手掛ける。2021年より上場会社インサイト（広告業）のCMO（Chief Marketing Officer）執行役員に就任。 2022年3月小売業と消費財メーカーの戦略とテクノロ

kiririmode 2024/05/04

ファミマでの作業時間50%削減対象領域。”「セキュリティ・レギュレーション作成」「Q＆A作成・自動回答」「文書作成・要約」「定型シート作成」「法令・リスクの洗い出し」「翻訳」”

ai
llm

リンク

日本語最高性能のRerankerをリリース / そもそも Reranker とは? - A Day in the Life

なお、今回作ったRerankerの技術的な話は、日本語 Reranker 作成のテクニカルレポートに記載しているので、興味のある方はそちらをご覧ください。そもそも Reranker とは？ Reranker とは、名前の通り再ランク付け(rerank)するもので、質問文に対して関連する順に文章を並べ替えます。文ベクトル(文章のembeddings)で類似度を測って並べ替えするものと何が違うのか？と思われるかもしれませんが、実際、文ベクトル類似度でも同じように並べ替えが可能です。しかしながら、大きく二つの点で異なります。 Reranker は再ランク性能が高い文ベクトルは、質問文と文章を同じベクトル空間上の表現として類似度を測ります。そのため大規模なデータに対しても事前に文章のベクトルを算出しておくことで、効率的な計算が可能です。しかしながら、Reranker は再ランクに特化してお

kiririmode 2024/04/07

リンク

コンサル10人相当のプロジェクトを2人で対応という高コスパ　半信半疑で、ChatGPTで新規事業開発をしてわかったこと

「ChatGPTによる新規事業開発の進化」をテーマに、リブ・コンサルティングが新規事業やサービス開発に取り組む人に向けたイベントを開催。同社の先進技術研究組織「ACROBAT」の所長・森一真氏が、ChatGPTを新規事業開発に活用する方法を語りました。前回の記事はこちら AIに適した知的労働森一真氏（以下、森）：データの分析も知的労働ですし、チームビルディングもある意味知的労働かなと思いますが、特に情報処理的で、かつ問題が曖昧ではなく、ちゃんと定義できるものほどAIに向いています。いわゆるリサーチや分析はどんどん優先的にAIに置き換わっていきます。新規事業アイデアは（スライドの）真ん中にあるんですが、若干情緒的なところや文脈的なところもありつつ、リサーチ等の情報処理的な業務負荷が著しく高いので、うまくプログラムを組むことでかなりAI化が進みやすいと思います。逆にリーダーシップやチー

kiririmode 2024/03/17

AIを利用した新規事業開発の開発の開発のアイディエーション。

リンク

RAGの性能を改善するための8つの戦略 | Fintan

近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル（Large Language Model：LLM）の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日本語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ

kiririmode 2024/02/11

リンク

LangChain v0.1.0について

はじめに LangChain v0.1.0がリリースされました。以下でリリースノートの概要をまとめたあと、実際に使用してみます。リリースノートの概要リリースノートの概要をclaudeにまとめてもらいました。 LangChain v0.1.0がリリースされ、初の安定版となった。PythonとJavaScriptの両方で利用でき、機能とドキュメントの改善によりフォーカスが向上した。アーキテクチャの変更により、langchain-coreとパートナーパッケージが分離され、プロジェクトが整理された。これによりコードの肥大化が防げ、バージョン管理がしやすくなった。サードパーティの統合がlangchain-communityに分離された。これにより統合に関する作業の集中化、依存関係の管理改善等のメリットがある。観測性の改善のため、LangSmithやverbose/debugモードの導入等

kiririmode 2024/01/12

リンク

Chunking Strategies for LLM Applications | Pinecone

LearnChunking Strategies for LLM ApplicationsJun 30, 2023 In the context of building LLM-related applications, chunking is the process of breaking down large pieces of text into smaller segments. It’s an essential technique that helps optimize the relevance of the content we get back from a vector database once we use the LLM to embed content. In this blog post, we’ll explore if and how it helps i

kiririmode 2024/01/01

chunk size決定のアルゴリズムとその評価方法

llm
ai

リンク

LLMのRAG（外部知識検索による強化）をまとめた調査報告 | AIDB

LLMのRAG（外部知識検索による強化）についての調査結果が報告されています。基本フレームワークと各構成要素の詳細、評価、そして今後の発展について言及されており網羅的です。本記事では、その報告内容を抜粋してお届けします。参照論文情報タイトル：Retrieval-Augmented Generation for Large Language Models: A Survey 著者：Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Haofen Wang 所属：Tongji University, Fudan University URL：https://doi.org/10.48550/arXiv.2312.10997 本記事の関連研究：LLMにナレッジグ

kiririmode 2023/12/30

RAGの構成要素

リンク

https://arxiv.org/pdf/2307.03109.pdf

kiririmode 2023/12/14

LLMの評価に関するsurvey論文

リンク

LLMの出力における問題は「LLMの処理が原因」とは限らない　プロンプト以外に考えられる4つの要因

「FastLabel × LayerX × LINE 3社が語る『生成AI×プロダクト開発』で直面する課題と乗り越え方」は、生成AIをプロダクト開発にどのように活用しているか、その際に直面した課題と克服するためのアプローチなどをFastLabel、LayerX、LINEのエンジニアが共有するイベントです。ここで株式会社LayerXの中村氏が登壇。ここからは、LLMの精度評価における、LLMの処理以外で考えられる原因分析について話します。前回はこちらから。精度評価中村龍矢氏：では具体的に、精度評価と改善にいければと思います。まず精度評価というと、パッとイメージしやすいのが、「どういうスコアをやるか」というところで。これは最近はツールもノウハウもいろいろ出ているので、あまり悩むことはないんじゃないかなと思っています。LLMが吐いた答えが正しいかどうかを判定する方法ですね。一番シンプルな

kiririmode 2023/12/14

チューニングするときのありがちな落とし穴

llm
ai

リンク

ISUCON13にLLM活用担当で参戦しました - LayerX エンジニアブログ

こんにちは、LayerX CTOの@y_matsuwitterです。最近はパン作りにハマっています。無心に小麦と酵母の声を聞くことで精神の安寧を求めています。この記事は LayerXテックアドカレ2023 19日目の記事です。前回は @shota_tech が「Go の linter 雰囲気で使っていたから調べ直した #LayerXテックアドカレ」を書いてくれました。次回はEMオフィスの@serimaより「Engineering Officeの話」がポストされる予定なのでご期待ください。 ISUCON13 昨日開催のISUCONに参加してきました。とても楽しい問題ですし、これだけの人数での開催を支えている運営の皆さんには頭が上がりません。個人でもLayerXとしてもスポンサーさせていただきました。ありがとうございます！ 10年近く一緒に出場している.datというチームで、私はプロンプトを

kiririmode 2023/12/01

LLMを使ったパフォーマンスチューニング。入力トークン数上限の増加に伴い相当有用なものになっている

リンク

LangChainを使ってHyDEによるクエリ変換の効果を検証する - Ahogrammer

ChatGPTやGPT-4をはじめとする大規模言語モデルの能力が向上し、多くの注目を集めています。とくにRAG（Retrieval Augmented Generation）と呼ばれる手法を使って、手元のデータを生成時に活用する手法がよく使われていますが、その性能を改善する方法は様々あります。その中でも、この記事ではRAG内部の検索性能を改善するためのクエリ変換に着目し、HyDEと呼ばれる手法の効果を日本語の検索用データセットを使って検証した結果を示します。記事の構成は以下のとおりです。 HyDEとは実験設定実験結果実装の詳細参考資料 HyDEとは HyDE（Hypothetical Document Embeddings：仮の文書の埋め込み）は、入力されたクエリに対して仮の文書を生成し、その文書を埋め込み、検索に使用する手法です[1]。典型的な文書検索では、ユーザーが入力したク

kiririmode 2023/11/25

HyDEを使った時の性能評価。”キーワード検索の場合は、HyDEを適用することで性能が低下する一方、ベクトル検索の場合はHyDEを使うことで性能が向上”

リンク

OWASP Top 10 for Large Language Model Applications | OWASP Foundation

This website uses cookies to analyze our traffic and only share that information with our analytics partners. Accept The OWASP Top 10 for Large Language Model Applications project aims to educate developers, designers, architects, managers, and organizations about the potential security risks when deploying and managing Large Language Models (LLMs). The project provides a list of the top 10 most c