タグ

llmに関するkiririmodeのブックマーク (18)

  • OpenAI Platform

    kiririmode
    kiririmode 2024/06/09
    LLMの正確性を向上させるステップ。まずはプロンプトエンジニアリング。その次は、課題がresponse accuracyにあればContext最適化、consistency of behaviorにあればFine-tuning
  • https://arxiv.org/pdf/2307.03172

    kiririmode
    kiririmode 2024/06/09
    すべてのモデルにおいて、関連情報が文脈の先頭または末尾にあるときに最高の性能を示し、中央にあると性能が著しく低下する"Lost in the middle" 「U字型の性能カーブ」が観測された。
  • Large Language Models are Zero-Shot Reasoners

    Pretrained large language models (LLMs) are widely used in many sub-fields of natural language processing (NLP) and generally known as excellent few-shot learners with task-specific exemplars. Notably, chain of thought (CoT) prompting, a recent technique for eliciting complex multi-step reasoning through step-by-step answer examples, achieved the state-of-the-art performances in arithmetics and sy

    kiririmode
    kiririmode 2024/06/02
    「Let’s think step by step」を追加するだけで、ゼロショット推論でも高い性能を発揮することが示されている。実験結果は、多くの推論タスクで既存のゼロショットLLMの性能を大きく上回った
  • 生成AIの能力をどう評価するか? ~激化するLLM競争を正しく見極めるために~|こへもこ

    はじめにはじめまして、ウイングアーク1stのこへもこと申します。 今回の記事では、大規模言語モデル(LLM: Large Language Models、以後LLM)の性能評価の裏側を紐解いていきたいと思います。 生成AI(Generative AI)、特にLLMの進化は目覚ましいものがあります。GPT-4o, Claude 3, Gemini 1.5, command R+など数々のモデルが登場し、その驚異的な能力により、自然言語処理(NLP)の分野だけでなく、多くの産業で応用が広がっています。(2024年5月時点) 多くの企業が自社のLLMの優れた性能をアピールしていますが、その発表を鵜呑みにすることは注意が必要です。各社の発表に対して、私たちが正しい目を養い、客観的かつ公正な視点でLLMを評価することが重要です。 記事では、LLMの評価に使用される「MMLU」という指標をベースに、

    生成AIの能力をどう評価するか? ~激化するLLM競争を正しく見極めるために~|こへもこ
    kiririmode
    kiririmode 2024/06/02
    LLMの性能評価指標としてのMMLU指標の概要・評価方法。内部ではプロンプトエンジニアリングとして0-shot Chain of Thoughtが使われている。
  • Helpfeelが「ChatGPT」を活用したFAQ作成支援ツールをリリース。3月8日から利用受付開始

    「Helpfeel Generative Writer」では、メールやチャットなどの履歴から質問と回答をコピー&ペーストすると、FAQのタイトルと文が自動生成される。自動生成された文章はメールなどのやり取りに含まれる個人情報を除去した上で要約したもので、FAQの初稿として最適なテキストとなっている。エンドユーザーの問い合わせをもとにFAQの記事を作成する業務が「ChatGPT」の技術により負担軽減される。 「Helpfeel」は、世界初の独自アルゴリズム「意図予測検索」を搭載した検索型FAQシステム。「意図予測検索」とは、FAQに入力された言葉から検索者が何を知りたいかの「意図」を予測し、その意図に合致する回答をすばやく検索するもの。検索ワードが曖昧だったり感覚的だったり、あるいはスペルミスや漢字/かなの表記揺れがあったりしても、疑問の解決につながる最適なFAQページをすばやく探し出すこ

    Helpfeelが「ChatGPT」を活用したFAQ作成支援ツールをリリース。3月8日から利用受付開始
    kiririmode
    kiririmode 2024/05/05
    問い合わせと回答のペアから、FAQ自体を作成するアプローチ
  • ファミマ「生成AIで業務を50%削減」の事例も 企業が活用するためのポイントとは?

    ファミマ「生成AIで業務を50%削減」の事例も 企業が活用するためのポイントとは?(1/3 ページ) レノン株式会社 代表取締役 CEO 城北宣広株式会社(広告業)社外取締役 著書に「小売業DX成功と失敗」(同文館出版)などがある。 グローバル総合コンサルファームであるKPMGコンサルティングにて小売企業を担当するセクターのディレクターとして大手小売企業の制度改革、マーケティングシステム構築などDX領域のコンサルティングを多数経験。世界三大戦略コンサルファームとも言われている、ベイン・アンド・カンパニーにおいて2020年より小売業・消費財メーカー担当メンバーとして大手小売企業の戦略構築支援及びコロナ後の市場総括を手掛ける。2021年より上場会社インサイト(広告業)のCMO(Chief Marketing Officer)執行役員に就任。 2022年3月小売業と消費財メーカーの戦略とテクノロ

    ファミマ「生成AIで業務を50%削減」の事例も 企業が活用するためのポイントとは?
    kiririmode
    kiririmode 2024/05/04
    ファミマでの作業時間50%削減対象領域。”「セキュリティ・レギュレーション作成」「Q&A作成・自動回答」「文書作成・要約」「定型シート作成」「法令・リスクの洗い出し」「翻訳」”
  • 日本語最高性能のRerankerをリリース / そもそも Reranker とは? - A Day in the Life

    なお、今回作ったRerankerの技術的な話は、日語 Reranker 作成のテクニカルレポートに記載しているので、興味のある方はそちらをご覧ください。 そもそも Reranker とは? Reranker とは、名前の通り再ランク付け(rerank)するもので、質問文に対して関連する順に文章を並べ替えます。文ベクトル(文章のembeddings)で類似度を測って並べ替えするものと何が違うのか?と思われるかもしれませんが、実際、文ベクトル類似度でも同じように並べ替えが可能です。 しかしながら、大きく二つの点で異なります。 Reranker は再ランク性能が高い 文ベクトルは、質問文と文章を同じベクトル空間上の表現として類似度を測ります。そのため大規模なデータに対しても事前に文章のベクトルを算出しておくことで、効率的な計算が可能です。 しかしながら、Reranker は再ランクに特化してお

    日本語最高性能のRerankerをリリース / そもそも Reranker とは? - A Day in the Life
  • コンサル10人相当のプロジェクトを2人で対応という高コスパ 半信半疑で、ChatGPTで新規事業開発をしてわかったこと

    ChatGPTによる新規事業開発の進化」をテーマに、リブ・コンサルティングが新規事業やサービス開発に取り組む人に向けたイベントを開催。同社の先進技術研究組織「ACROBAT」の所長・森一真氏が、ChatGPTを新規事業開発に活用する方法を語りました。 前回の記事はこちら AIに適した知的労働 森一真氏(以下、森):データの分析も知的労働ですし、チームビルディングもある意味知的労働かなと思いますが、特に情報処理的で、かつ問題が曖昧ではなく、ちゃんと定義できるものほどAIに向いています。いわゆるリサーチや分析はどんどん優先的にAIに置き換わっていきます。 新規事業アイデアは(スライドの)真ん中にあるんですが、若干情緒的なところや文脈的なところもありつつ、リサーチ等の情報処理的な業務負荷が著しく高いので、うまくプログラムを組むことでかなりAI化が進みやすいと思います。 逆にリーダーシップやチー

    コンサル10人相当のプロジェクトを2人で対応という高コスパ 半信半疑で、ChatGPTで新規事業開発をしてわかったこと
    kiririmode
    kiririmode 2024/03/17
    AIを利用した新規事業開発の開発の開発のアイディエーション。
  • RAGの性能を改善するための8つの戦略 | Fintan

    近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル(Large Language Model:LLM)の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。 大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ

    RAGの性能を改善するための8つの戦略 | Fintan
  • LangChain v0.1.0について

    はじめに LangChain v0.1.0がリリースされました。 以下でリリースノートの概要をまとめたあと、実際に使用してみます。 リリースノートの概要 リリースノートの概要をclaudeにまとめてもらいました。 LangChain v0.1.0がリリースされ、初の安定版となった。PythonJavaScriptの両方で利用でき、機能とドキュメントの改善によりフォーカスが向上した。 アーキテクチャの変更により、langchain-coreとパートナーパッケージが分離され、プロジェクトが整理された。これによりコードの肥大化が防げ、バージョン管理がしやすくなった。 サードパーティの統合がlangchain-communityに分離された。これにより統合に関する作業の集中化、依存関係の管理改善等のメリットがある。 観測性の改善のため、LangSmithやverbose/debugモードの導入等

    LangChain v0.1.0について
  • Chunking Strategies for LLM Applications | Pinecone

    LearnChunking Strategies for LLM ApplicationsJun 30, 2023 In the context of building LLM-related applications, chunking is the process of breaking down large pieces of text into smaller segments. It’s an essential technique that helps optimize the relevance of the content we get back from a vector database once we use the LLM to embed content. In this blog post, we’ll explore if and how it helps i

    Chunking Strategies for LLM Applications | Pinecone
    kiririmode
    kiririmode 2024/01/01
    chunk size決定のアルゴリズムとその評価方法
  • LLMのRAG(外部知識検索による強化)をまとめた調査報告 | AIDB

    LLMのRAG(外部知識検索による強化)についての調査結果が報告されています。 基フレームワークと各構成要素の詳細、評価、そして今後の発展について言及されており網羅的です。 記事では、その報告内容を抜粋してお届けします。 参照論文情報 タイトル:Retrieval-Augmented Generation for Large Language Models: A Survey 著者:Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Haofen Wang 所属:Tongji University, Fudan University URL:https://doi.org/10.48550/arXiv.2312.10997 記事の関連研究:LLMにナレッジグ

    LLMのRAG(外部知識検索による強化)をまとめた調査報告 | AIDB
    kiririmode
    kiririmode 2023/12/30
    RAGの構成要素
  • https://arxiv.org/pdf/2307.03109.pdf

    kiririmode
    kiririmode 2023/12/14
    LLMの評価に関するsurvey論文
  • LLMの出力における問題は「LLMの処理が原因」とは限らない プロンプト以外に考えられる4つの要因

    「FastLabel × LayerX × LINE 3社が語る『生成AI×プロダクト開発』で直面する課題と乗り越え方」は、生成AIをプロダクト開発にどのように活用しているか、その際に直面した課題と克服するためのアプローチなどをFastLabel、LayerX、LINEエンジニアが共有するイベントです。ここで株式会社LayerXの中村氏が登壇。ここからは、LLMの精度評価における、LLMの処理以外で考えられる原因分析について話します。前回はこちらから。 精度評価 中村龍矢氏:では具体的に、精度評価と改善にいければと思います。 まず精度評価というと、パッとイメージしやすいのが、「どういうスコアをやるか」というところで。これは最近はツールもノウハウもいろいろ出ているので、あまり悩むことはないんじゃないかなと思っています。LLMが吐いた答えが正しいかどうかを判定する方法ですね。 一番シンプルな

    LLMの出力における問題は「LLMの処理が原因」とは限らない プロンプト以外に考えられる4つの要因
    kiririmode
    kiririmode 2023/12/14
    チューニングするときのありがちな落とし穴
  • ISUCON13にLLM活用担当で参戦しました - LayerX エンジニアブログ

    こんにちは、LayerX CTOの@y_matsuwitterです。最近はパン作りにハマっています。無心に小麦と酵母の声を聞くことで精神の安寧を求めています。 この記事は LayerXテックアドカレ2023 19日目の記事です。前回は @shota_tech が「Golinter 雰囲気で使っていたから調べ直した #LayerXテックアドカレ」を書いてくれました。次回はEMオフィスの@serimaより「Engineering Officeの話」がポストされる予定なのでご期待ください。 ISUCON13 昨日開催のISUCONに参加してきました。とても楽しい問題ですし、これだけの人数での開催を支えている運営の皆さんには頭が上がりません。個人でもLayerXとしてもスポンサーさせていただきました。ありがとうございます! 10年近く一緒に出場している.datというチームで、私はプロンプトを

    ISUCON13にLLM活用担当で参戦しました - LayerX エンジニアブログ
    kiririmode
    kiririmode 2023/12/01
    LLMを使ったパフォーマンスチューニング。入力トークン数上限の増加に伴い相当有用なものになっている
  • LangChainを使ってHyDEによるクエリ変換の効果を検証する - Ahogrammer

    ChatGPTやGPT-4をはじめとする大規模言語モデルの能力が向上し、多くの注目を集めています。とくにRAG(Retrieval Augmented Generation)と呼ばれる手法を使って、手元のデータを生成時に活用する手法がよく使われていますが、その性能を改善する方法は様々あります。その中でも、この記事ではRAG内部の検索性能を改善するためのクエリ変換に着目し、HyDEと呼ばれる手法の効果を日語の検索用データセットを使って検証した結果を示します。 記事の構成は以下のとおりです。 HyDEとは 実験設定 実験結果 実装の詳細 参考資料 HyDEとは HyDE(Hypothetical Document Embeddings:仮の文書の埋め込み)は、入力されたクエリに対して仮の文書を生成し、その文書を埋め込み、検索に使用する手法です[1]。典型的な文書検索では、ユーザーが入力したク

    LangChainを使ってHyDEによるクエリ変換の効果を検証する - Ahogrammer
    kiririmode
    kiririmode 2023/11/25
    HyDEを使った時の性能評価。”キーワード検索の場合は、HyDEを適用することで性能が低下する一方、ベクトル検索の場合はHyDEを使うことで性能が向上”
  • OWASP Top 10 for Large Language Model Applications | OWASP Foundation

    This website uses cookies to analyze our traffic and only share that information with our analytics partners. Accept The OWASP Top 10 for Large Language Model Applications project aims to educate developers, designers, architects, managers, and organizations about the potential security risks when deploying and managing Large Language Models (LLMs). The project provides a list of the top 10 most c

    kiririmode
    kiririmode 2023/11/22
    LLMアプリ用のOWASPセキュリティ観点
  • 【自己肯定感アップ】『Pi(パイ)』AIチャットとは?特徴・使い方・注意点・よくある質問を徹底解説!

    国内外のAIライティングツールの使い方&最新情報を発信中!🚀|職歴:新規開拓営業・マーケティング・社会人向け英語講師|誰もがAIライティングツールを使いこなす世の中にするため、日々情報発信しています!

    【自己肯定感アップ】『Pi(パイ)』AIチャットとは?特徴・使い方・注意点・よくある質問を徹底解説!
    kiririmode
    kiririmode 2023/11/15
    自前のLLMを使ったチャットボット
  • 1