タグ

LLMに関するymym3412のブックマーク (4)

  • LLMの現在 - Speaker Deck

    今のLLMを取り巻く状況について紹介します。

    LLMの現在 - Speaker Deck
  • “LLM for SRE“の世界探索 - ゆううきブログ

    ChatGPTが登場した当初、対話や要約、翻訳、コード生成などの典型的な言語タスクができても、SREやAIOpsの研究開発にはあまり関係ないのではないかと正直思っていた。AIOpsでは典型的にはいわゆるObservabilityデータ(メトリクス、ログ、トレースなど)が入力となるため、自然言語ではなく数値のデータを解析することが求められる。自然言語のタスクを研究対象としていなかったため、AIOpsとChatGPTに強い関係性は見いだせなかった*1。 しかし、自分で大規模言語モデル(Large Language Model: LLM)を日常的に使用したり、表題にあるようにSREのためのLLM(LLM for SRE, LLM4SRE)に関する論文を読むうちに、LLMのテキスト生成器としての性質よりもその優れた推論機械としての性質に注目するようになった。特にSREの障害診断は、人間の専門家が推

    “LLM for SRE“の世界探索 - ゆううきブログ
  • LLMを利用したFAQ検索の評価データセットの作成 | 株式会社AI Shift

    こんにちは AIチームの戸田です FAQ(Frequently Asked Questions)は、ユーザーがよく持つ疑問や問題点に対する回答をまとめたもので、ウェブサイトやマニュアル、カスタマーサポートなど様々な場面で利用されています。FAQの効率的な検索手法は、ユーザーサポートの向上や情報提供の効率化に直結するため、長い間研究や開発の対象となってきました。 しかし、新しい技術や手法が次々と登場する中で、その性能を比較・評価するためのデータセットは少ないのが現状です。 そこで記事では、LLM(Large Language Model)を利用したFAQ検索の性能を評価するための新しいデータセットの作成方法について紹介します。 評価データセットに必要な要素 FAQ検索の評価を行うためのデータセットを作成する際、以下の要素が必要となります。 タイトルFAQの主題やカテゴリを示す短い文章やフレ

    LLMを利用したFAQ検索の評価データセットの作成 | 株式会社AI Shift
  • Prompt Flowでプロンプト評価の管理を行う | フューチャー技術ブログ

    今回はこのような表を自動で得られるようにすることを目標とします。 LLMには、追加学習による精度の改善だけでなく、入力するプロンプトの改善による精度向上の余地があります。 今回は、通常の機械学習の実験管理とは異なり、LLM, プロンプトの2変数のうち、LLMを固定します。仮に精度が向上した場合、それが「LLMを改善したから」なのか「プロンプトを改善したから」なのかが分からなくなってしまうからです。 プロンプトの評価プロンプトの評価に必要なもの以下の4つが全て揃えば大体どんな評価もできます。 最低限*印の項目があればそれなりの評価ができます。 質問文* LLMの回答* 理想の回答 コンテキスト プロンプトの評価指標例プロンプトの評価指標は、原則「プロジェクト・タスクによりけり」です。 ここでは評価指標を定めるための参考として、いくつか事例を集めたので以下にご紹介します。 事例①: Promp

    Prompt Flowでプロンプト評価の管理を行う | フューチャー技術ブログ
  • 1