[B! llm][ai] kiririmodeのブックマーク

Your AI Product Needs Evals –

Motivation I started working with language models five years ago when I led the team that created CodeSearchNet, a precursor to GitHub CoPilot. Since then, I’ve seen many successful and unsuccessful approaches to building LLM products. I’ve found that unsuccessful products almost always share a common root cause: a failure to create robust evaluation systems. I’m currently an independent consultan

kiririmode 2024/09/02

AIとインテグレーションしたプロダクトのテスト戦略。単体テストを整備し、テストをパスする観点を追加しながらリグレッションしていく。その後トレース→A/Bテスト

test
ai

リンク

GitHub - dh1011/llm-term: A Rust-based CLI tool that generates and executes terminal commands using OpenAI's language models.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

kiririmode 2024/09/01

CLIで何をしたいか記述すると、それを実現するためのコマンド列を返却し実行してくれるツール。UnixシェルとともにPowershellにも対応

リンク

[翻訳]LLMで1年間開発して学んだこと〜LLMプロダクト開発を成功に導くための実践的ガイド〜

この記事は "What We’ve Learned From A Year of Building with LLMs" という記事を著者の一人である Eugene Yan さんから許可を得て翻訳したものです。 https://applied-llms.org/ Thank you for giving me a permission to translate this wonderful article! 著者の方々 Eugene Yan Bryan Bischof Charles Frye Hamel Husain Jason Liu Shreya Shankar 原文の公開日 2024/６/8 今は大規模言語モデル（LLM）を使った開発がとってもエキサイティングな時期です。この1年間で、LLMは実世界のアプリケーションに対して「十分に良い」ものになりました。そして、年々良くなり、安く

kiririmode 2024/08/31

めちゃくちゃ良かった。参考文献も含め。

リンク

「生成AI」と「LLM」を混同してはいけない“4つの理由”

関連キーワード人工知能 | 機械学習テキストや画像を生成する人工知能（AI）技術である「生成AI」と聞いて、「GPT」をはじめとする「大規模言語モデル」（LLM）を思い浮かべる人がいる。それは間違った考え方ではないが、生成AIとLLMは同じではない。生成AIのベースとなる基盤モデルのさまざまな種類を踏まえて、生成AIとLLMを混同してはいけない理由を4つの視点で解説する。「生成AI」と「LLM」を混同してはいけない4つの理由併せて読みたいお薦め記事連載：押さえておきたいLLMの基礎前編：GAN、VAE、Transf ormerとは？　生成AIがよく分かる「深層学習モデル」5選中編：「ELIZA」から「GPT-4」に至る、知られざる“LLM進化の歴史” LLMの関連記事生成AIからデータが盗まれていることも……？　LLMの10大脅威「Gemini 1.5 Pro」の“マルチな

kiririmode 2024/08/11

LLMは主にテキスト関連のタスクに特化し大量の言語データセットを使用。生成AIはテキスト以外にも画像、音声、動画など多様なデータ形式を扱うことができ、様々なAIモデルを含む。

ai
llm

リンク

【都知事選×テクノロジー】東京都知事選におけるHuman-in-the-Loop機械学習｜NSK

安野たかひろ事務所技術チームの角野です。前回の投稿ではAIあんのにおける返答生成技術の詳細に触れましたが、今回は返答生成に用いるデータの整備に焦点を当てて解説します。なぜデータの整備が必要なのか？AIあんのでは政策に関する質問に対してLLMで返答の生成を行っていますが、元のLLMには安野の政策に関する知識が含まれておらず、そのままでは政策に関する質問には回答できません。そこで、前回の記事でも解説しましたが、AIあんのではLLMに入力するプロンプト中に政策に関する知識を注入することで、政策に関する質問に回答できるようにしています。当然知識がない質問に対しては回答できないため、ユーザーの質問に対して正確に回答するには政策に関する知識をデータとして整備することが重要となります。返答生成に利用しているデータAIあんのでは、次の2種類のデータを返答生成時に利用しています。今回の記事では、私

kiririmode 2024/07/14

回答の質の良さとして「質問に回答できない」返答を除外し「有効な返答」件数としている。回答に対するラベリングもLLMにて実施。

リンク

OpenAI Platform

kiririmode 2024/06/09

LLMの正確性を向上させるステップ。まずはプロンプトエンジニアリング。その次は、課題がresponse accuracyにあればContext最適化、consistency of behaviorにあればFine-tuning

llm
ai

リンク

https://arxiv.org/pdf/2307.03172

kiririmode 2024/06/09

すべてのモデルにおいて、関連情報が文脈の先頭または末尾にあるときに最高の性能を示し、中央にあると性能が著しく低下する"Lost in the middle" 「U字型の性能カーブ」が観測された。

リンク

Large Language Models are Zero-Shot Reasoners

Pretrained large language models (LLMs) are widely used in many sub-fields of natural language processing (NLP) and generally known as excellent few-shot learners with task-specific exemplars. Notably, chain of thought (CoT) prompting, a recent technique for eliciting complex multi-step reasoning through step-by-step answer examples, achieved the state-of-the-art performances in arithmetics and sy

kiririmode 2024/06/02

「Let’s think step by step」を追加するだけで、ゼロショット推論でも高い性能を発揮することが示されている。実験結果は、多くの推論タスクで既存のゼロショットLLMの性能を大きく上回った

リンク

生成AIの能力をどう評価するか？ ~激化するLLM競争を正しく見極めるために~｜こへもこ

はじめにはじめまして、ウイングアーク１ｓｔのこへもこと申します。今回の記事では、大規模言語モデル（LLM: Large Language Models、以後LLM）の性能評価の裏側を紐解いていきたいと思います。生成AI（Generative AI）、特にLLMの進化は目覚ましいものがあります。GPT-4o, Claude 3, Gemini 1.5, command R+など数々のモデルが登場し、その驚異的な能力により、自然言語処理（NLP）の分野だけでなく、多くの産業で応用が広がっています。（2024年5月時点）多くの企業が自社のLLMの優れた性能をアピールしていますが、その発表を鵜呑みにすることは注意が必要です。各社の発表に対して、私たちが正しい目を養い、客観的かつ公正な視点でLLMを評価することが重要です。本記事では、LLMの評価に使用される「MMLU」という指標をベースに、

kiririmode 2024/06/02

LLMの性能評価指標としてのMMLU指標の概要・評価方法。内部ではプロンプトエンジニアリングとして0-shot Chain of Thoughtが使われている。

リンク

Helpfeelが「ChatGPT」を活用したFAQ作成支援ツールをリリース。3月8日から利用受付開始

ProductZine Day＆オンラインセミナーは、プロダクト開発にフォーカスし、最新情報をお届けしているWebメディア「ProductZine（プロダクトジン）」が主催する読者向けイベントです。現場の最前線で活躍されているゲストの方をお招きし、日々のプロダクト開発のヒントとなるような内容を、講演とディスカッションを通してお伝えしていきます。

kiririmode 2024/05/05

問い合わせと回答のペアから、FAQ自体を作成するアプローチ

llm
ai

リンク

ファミマ「生成AIで業務を50％削減」の事例も　企業が活用するためのポイントとは？

ファミマ「生成AIで業務を50％削減」の事例も　企業が活用するためのポイントとは？（1/3 ページ）レノン株式会社代表取締役 CEO 城北宣広株式会社（広告業）社外取締役著書に「小売業DX成功と失敗」（同文館出版）などがある。グローバル総合コンサルファームであるKPMGコンサルティングにて小売企業を担当するセクターのディレクターとして大手小売企業の制度改革、マーケティングシステム構築などDX領域のコンサルティングを多数経験。世界三大戦略コンサルファームとも言われている、ベイン・アンド・カンパニーにおいて2020年より小売業・消費財メーカー担当メンバーとして大手小売企業の戦略構築支援及びコロナ後の市場総括を手掛ける。2021年より上場会社インサイト（広告業）のCMO（Chief Marketing Officer）執行役員に就任。 2022年3月小売業と消費財メーカーの戦略とテクノロ

kiririmode 2024/05/04

ファミマでの作業時間50%削減対象領域。”「セキュリティ・レギュレーション作成」「Q＆A作成・自動回答」「文書作成・要約」「定型シート作成」「法令・リスクの洗い出し」「翻訳」”

ai
llm

リンク

日本語最高性能のRerankerをリリース / そもそも Reranker とは? - A Day in the Life

なお、今回作ったRerankerの技術的な話は、日本語 Reranker 作成のテクニカルレポートに記載しているので、興味のある方はそちらをご覧ください。そもそも Reranker とは？ Reranker とは、名前の通り再ランク付け(rerank)するもので、質問文に対して関連する順に文章を並べ替えます。文ベクトル(文章のembeddings)で類似度を測って並べ替えするものと何が違うのか？と思われるかもしれませんが、実際、文ベクトル類似度でも同じように並べ替えが可能です。しかしながら、大きく二つの点で異なります。 Reranker は再ランク性能が高い文ベクトルは、質問文と文章を同じベクトル空間上の表現として類似度を測ります。そのため大規模なデータに対しても事前に文章のベクトルを算出しておくことで、効率的な計算が可能です。しかしながら、Reranker は再ランクに特化してお

kiririmode 2024/04/07

リンク

コンサル10人相当のプロジェクトを2人で対応という高コスパ　半信半疑で、ChatGPTで新規事業開発をしてわかったこと

「ChatGPTによる新規事業開発の進化」をテーマに、リブ・コンサルティングが新規事業やサービス開発に取り組む人に向けたイベントを開催。同社の先進技術研究組織「ACROBAT」の所長・森一真氏が、ChatGPTを新規事業開発に活用する方法を語りました。前回の記事はこちら AIに適した知的労働森一真氏（以下、森）：データの分析も知的労働ですし、チームビルディングもある意味知的労働かなと思いますが、特に情報処理的で、かつ問題が曖昧ではなく、ちゃんと定義できるものほどAIに向いています。いわゆるリサーチや分析はどんどん優先的にAIに置き換わっていきます。新規事業アイデアは（スライドの）真ん中にあるんですが、若干情緒的なところや文脈的なところもありつつ、リサーチ等の情報処理的な業務負荷が著しく高いので、うまくプログラムを組むことでかなりAI化が進みやすいと思います。逆にリーダーシップやチー

kiririmode 2024/03/17

AIを利用した新規事業開発の開発の開発のアイディエーション。

リンク

RAGの性能を改善するための8つの戦略 | Fintan

近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル（Large Language Model：LLM）の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日本語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ

kiririmode 2024/02/11

リンク

LangChain v0.1.0について

はじめに LangChain v0.1.0がリリースされました。以下でリリースノートの概要をまとめたあと、実際に使用してみます。リリースノートの概要リリースノートの概要をclaudeにまとめてもらいました。 LangChain v0.1.0がリリースされ、初の安定版となった。PythonとJavaScriptの両方で利用でき、機能とドキュメントの改善によりフォーカスが向上した。アーキテクチャの変更により、langchain-coreとパートナーパッケージが分離され、プロジェクトが整理された。これによりコードの肥大化が防げ、バージョン管理がしやすくなった。サードパーティの統合がlangchain-communityに分離された。これにより統合に関する作業の集中化、依存関係の管理改善等のメリットがある。観測性の改善のため、LangSmithやverbose/debugモードの導入等

kiririmode 2024/01/12

リンク

Chunking Strategies for LLM Applications | Pinecone

In the context of building LLM-related applications, chunking is the process of breaking down large pieces of text into smaller segments. It’s an essential technique that helps optimize the relevance of the content we get back from a vector database once we use the LLM to embed content. In this blog post, we’ll explore if and how it helps improve efficiency and accuracy in LLM-related applications

kiririmode 2024/01/01

chunk size決定のアルゴリズムとその評価方法

llm
ai

リンク

http://arxiv.org/pdf/2307.03109

kiririmode 2023/12/14

LLMの評価に関するsurvey論文

リンク

LLMの出力における問題は「LLMの処理が原因」とは限らない　プロンプト以外に考えられる4つの要因

「FastLabel × LayerX × LINE 3社が語る『生成AI×プロダクト開発』で直面する課題と乗り越え方」は、生成AIをプロダクト開発にどのように活用しているか、その際に直面した課題と克服するためのアプローチなどをFastLabel、LayerX、LINEのエンジニアが共有するイベントです。ここで株式会社LayerXの中村氏が登壇。ここからは、LLMの精度評価における、LLMの処理以外で考えられる原因分析について話します。前回はこちらから。精度評価中村龍矢氏：では具体的に、精度評価と改善にいければと思います。まず精度評価というと、パッとイメージしやすいのが、「どういうスコアをやるか」というところで。これは最近はツールもノウハウもいろいろ出ているので、あまり悩むことはないんじゃないかなと思っています。LLMが吐いた答えが正しいかどうかを判定する方法ですね。一番シンプルな

kiririmode 2023/12/14

チューニングするときのありがちな落とし穴

llm
ai

リンク

ISUCON13にLLM活用担当で参戦しました - LayerX エンジニアブログ

こんにちは、LayerX CTOの@y_matsuwitterです。最近はパン作りにハマっています。無心に小麦と酵母の声を聞くことで精神の安寧を求めています。この記事は LayerXテックアドカレ2023 19日目の記事です。前回は @shota_tech が「Go の linter 雰囲気で使っていたから調べ直した #LayerXテックアドカレ」を書いてくれました。次回はEMオフィスの@serimaより「Engineering Officeの話」がポストされる予定なのでご期待ください。 ISUCON13 昨日開催のISUCONに参加してきました。とても楽しい問題ですし、これだけの人数での開催を支えている運営の皆さんには頭が上がりません。個人でもLayerXとしてもスポンサーさせていただきました。ありがとうございます！ 10年近く一緒に出場している.datというチームで、私はプロンプトを

kiririmode 2023/12/01

LLMを使ったパフォーマンスチューニング。入力トークン数上限の増加に伴い相当有用なものになっている

リンク

LangChainを使ってHyDEによるクエリ変換の効果を検証する - Ahogrammer

ChatGPTやGPT-4をはじめとする大規模言語モデルの能力が向上し、多くの注目を集めています。とくにRAG（Retrieval Augmented Generation）と呼ばれる手法を使って、手元のデータを生成時に活用する手法がよく使われていますが、その性能を改善する方法は様々あります。その中でも、この記事ではRAG内部の検索性能を改善するためのクエリ変換に着目し、HyDEと呼ばれる手法の効果を日本語の検索用データセットを使って検証した結果を示します。記事の構成は以下のとおりです。 HyDEとは実験設定実験結果実装の詳細参考資料 HyDEとは HyDE（Hypothetical Document Embeddings：仮の文書の埋め込み）は、入力されたクエリに対して仮の文書を生成し、その文書を埋め込み、検索に使用する手法です[1]。典型的な文書検索では、ユーザーが入力したク

kiririmode 2023/11/25

HyDEを使った時の性能評価。”キーワード検索の場合は、HyDEを適用することで性能が低下する一方、ベクトル検索の場合はHyDEを使うことで性能が向上”

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

llmとaiに関するkiririmodeのブックマーク (21)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス