Pretrained large language models (LLMs) are widely used in many sub-fields of natural language processing (NLP) and generally known as excellent few-shot learners with task-specific exemplars. Notably, chain of thought (CoT) prompting, a recent technique for eliciting complex multi-step reasoning through step-by-step answer examples, achieved the state-of-the-art performances in arithmetics and sy
はじめにはじめまして、ウイングアーク1stのこへもこと申します。 今回の記事では、大規模言語モデル(LLM: Large Language Models、以後LLM)の性能評価の裏側を紐解いていきたいと思います。 生成AI(Generative AI)、特にLLMの進化は目覚ましいものがあります。GPT-4o, Claude 3, Gemini 1.5, command R+など数々のモデルが登場し、その驚異的な能力により、自然言語処理(NLP)の分野だけでなく、多くの産業で応用が広がっています。(2024年5月時点) 多くの企業が自社のLLMの優れた性能をアピールしていますが、その発表を鵜呑みにすることは注意が必要です。各社の発表に対して、私たちが正しい目を養い、客観的かつ公正な視点でLLMを評価することが重要です。 本記事では、LLMの評価に使用される「MMLU」という指標をベースに、
「Helpfeel Generative Writer」では、メールやチャットなどの履歴から質問と回答をコピー&ペーストすると、FAQのタイトルと本文が自動生成される。自動生成された文章はメールなどのやり取りに含まれる個人情報を除去した上で要約したもので、FAQの初稿として最適なテキストとなっている。エンドユーザーの問い合わせをもとにFAQの記事を作成する業務が「ChatGPT」の技術により負担軽減される。 「Helpfeel」は、世界初の独自アルゴリズム「意図予測検索」を搭載した検索型FAQシステム。「意図予測検索」とは、FAQに入力された言葉から検索者が何を知りたいかの「意図」を予測し、その意図に合致する回答をすばやく検索するもの。検索ワードが曖昧だったり感覚的だったり、あるいはスペルミスや漢字/かなの表記揺れがあったりしても、疑問の解決につながる最適なFAQページをすばやく探し出すこ
ファミマ「生成AIで業務を50%削減」の事例も 企業が活用するためのポイントとは?(1/3 ページ) レノン株式会社 代表取締役 CEO 城北宣広株式会社(広告業)社外取締役 著書に「小売業DX成功と失敗」(同文館出版)などがある。 グローバル総合コンサルファームであるKPMGコンサルティングにて小売企業を担当するセクターのディレクターとして大手小売企業の制度改革、マーケティングシステム構築などDX領域のコンサルティングを多数経験。世界三大戦略コンサルファームとも言われている、ベイン・アンド・カンパニーにおいて2020年より小売業・消費財メーカー担当メンバーとして大手小売企業の戦略構築支援及びコロナ後の市場総括を手掛ける。2021年より上場会社インサイト(広告業)のCMO(Chief Marketing Officer)執行役員に就任。 2022年3月小売業と消費財メーカーの戦略とテクノロ
なお、今回作ったRerankerの技術的な話は、日本語 Reranker 作成のテクニカルレポートに記載しているので、興味のある方はそちらをご覧ください。 そもそも Reranker とは? Reranker とは、名前の通り再ランク付け(rerank)するもので、質問文に対して関連する順に文章を並べ替えます。文ベクトル(文章のembeddings)で類似度を測って並べ替えするものと何が違うのか?と思われるかもしれませんが、実際、文ベクトル類似度でも同じように並べ替えが可能です。 しかしながら、大きく二つの点で異なります。 Reranker は再ランク性能が高い 文ベクトルは、質問文と文章を同じベクトル空間上の表現として類似度を測ります。そのため大規模なデータに対しても事前に文章のベクトルを算出しておくことで、効率的な計算が可能です。 しかしながら、Reranker は再ランクに特化してお
「ChatGPTによる新規事業開発の進化」をテーマに、リブ・コンサルティングが新規事業やサービス開発に取り組む人に向けたイベントを開催。同社の先進技術研究組織「ACROBAT」の所長・森一真氏が、ChatGPTを新規事業開発に活用する方法を語りました。 前回の記事はこちら AIに適した知的労働 森一真氏(以下、森):データの分析も知的労働ですし、チームビルディングもある意味知的労働かなと思いますが、特に情報処理的で、かつ問題が曖昧ではなく、ちゃんと定義できるものほどAIに向いています。いわゆるリサーチや分析はどんどん優先的にAIに置き換わっていきます。 新規事業アイデアは(スライドの)真ん中にあるんですが、若干情緒的なところや文脈的なところもありつつ、リサーチ等の情報処理的な業務負荷が著しく高いので、うまくプログラムを組むことでかなりAI化が進みやすいと思います。 逆にリーダーシップやチー
近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル(Large Language Model:LLM)の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日本語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。 大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ
はじめに LangChain v0.1.0がリリースされました。 以下でリリースノートの概要をまとめたあと、実際に使用してみます。 リリースノートの概要 リリースノートの概要をclaudeにまとめてもらいました。 LangChain v0.1.0がリリースされ、初の安定版となった。PythonとJavaScriptの両方で利用でき、機能とドキュメントの改善によりフォーカスが向上した。 アーキテクチャの変更により、langchain-coreとパートナーパッケージが分離され、プロジェクトが整理された。これによりコードの肥大化が防げ、バージョン管理がしやすくなった。 サードパーティの統合がlangchain-communityに分離された。これにより統合に関する作業の集中化、依存関係の管理改善等のメリットがある。 観測性の改善のため、LangSmithやverbose/debugモードの導入等
LearnChunking Strategies for LLM ApplicationsJun 30, 2023 In the context of building LLM-related applications, chunking is the process of breaking down large pieces of text into smaller segments. It’s an essential technique that helps optimize the relevance of the content we get back from a vector database once we use the LLM to embed content. In this blog post, we’ll explore if and how it helps i
LLMのRAG(外部知識検索による強化)についての調査結果が報告されています。 基本フレームワークと各構成要素の詳細、評価、そして今後の発展について言及されており網羅的です。 本記事では、その報告内容を抜粋してお届けします。 参照論文情報 タイトル:Retrieval-Augmented Generation for Large Language Models: A Survey 著者:Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Haofen Wang 所属:Tongji University, Fudan University URL:https://doi.org/10.48550/arXiv.2312.10997 本記事の関連研究:LLMにナレッジグ
「FastLabel × LayerX × LINE 3社が語る『生成AI×プロダクト開発』で直面する課題と乗り越え方」は、生成AIをプロダクト開発にどのように活用しているか、その際に直面した課題と克服するためのアプローチなどをFastLabel、LayerX、LINEのエンジニアが共有するイベントです。ここで株式会社LayerXの中村氏が登壇。ここからは、LLMの精度評価における、LLMの処理以外で考えられる原因分析について話します。前回はこちらから。 精度評価 中村龍矢氏:では具体的に、精度評価と改善にいければと思います。 まず精度評価というと、パッとイメージしやすいのが、「どういうスコアをやるか」というところで。これは最近はツールもノウハウもいろいろ出ているので、あまり悩むことはないんじゃないかなと思っています。LLMが吐いた答えが正しいかどうかを判定する方法ですね。 一番シンプルな
こんにちは、LayerX CTOの@y_matsuwitterです。最近はパン作りにハマっています。無心に小麦と酵母の声を聞くことで精神の安寧を求めています。 この記事は LayerXテックアドカレ2023 19日目の記事です。前回は @shota_tech が「Go の linter 雰囲気で使っていたから調べ直した #LayerXテックアドカレ」を書いてくれました。次回はEMオフィスの@serimaより「Engineering Officeの話」がポストされる予定なのでご期待ください。 ISUCON13 昨日開催のISUCONに参加してきました。とても楽しい問題ですし、これだけの人数での開催を支えている運営の皆さんには頭が上がりません。個人でもLayerXとしてもスポンサーさせていただきました。ありがとうございます! 10年近く一緒に出場している.datというチームで、私はプロンプトを
ChatGPTやGPT-4をはじめとする大規模言語モデルの能力が向上し、多くの注目を集めています。とくにRAG(Retrieval Augmented Generation)と呼ばれる手法を使って、手元のデータを生成時に活用する手法がよく使われていますが、その性能を改善する方法は様々あります。その中でも、この記事ではRAG内部の検索性能を改善するためのクエリ変換に着目し、HyDEと呼ばれる手法の効果を日本語の検索用データセットを使って検証した結果を示します。 記事の構成は以下のとおりです。 HyDEとは 実験設定 実験結果 実装の詳細 参考資料 HyDEとは HyDE(Hypothetical Document Embeddings:仮の文書の埋め込み)は、入力されたクエリに対して仮の文書を生成し、その文書を埋め込み、検索に使用する手法です[1]。典型的な文書検索では、ユーザーが入力したク
This website uses cookies to analyze our traffic and only share that information with our analytics partners. Accept The OWASP Top 10 for Large Language Model Applications project aims to educate developers, designers, architects, managers, and organizations about the potential security risks when deploying and managing Large Language Models (LLMs). The project provides a list of the top 10 most c
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く