日本語LLM の学習に関する技術記事をまとめました。日本語LLMの開発元の技術記事およびプレゼン資料が中心になります。 2023年5月9日 wandb - LLMをゼロからトレーニングするためのベストプラクティス
PythonからAzure AI Searchのシノニムマップを作成し、クエリ拡張をして、その効果を日本語の質問応答データセットで確認してみました。昔からある機能で、とくに何か新しいことをしているわけでもないのですが、使いそうな機会があったので試してみました。 本記事の構成は以下のとおりです。 シノニムマップ シノニムマップの作成 インデックスの作成 実験設定 実験結果 参考資料 シノニムマップ 記法は、Apache SolrのSynonymFilterの仕様に準拠しています[1]。Solrのドキュメントを読む限り、現在ではSynonymFilterは非推奨で、代わりにSynonymGraphFilterを使うことが推奨されていますが、為す術もないのでそのまま使います。2つの違いについては[2]がわかりやすいです。SynonymFilterでは、以下の2種類の規則をサポートしています。 同
RAG(Retrieval Augmented Generation)は大規模言語モデル(LLM)の性能を改善するための手法の1つであり、質問に対する回答を生成する際に、外部知識源から情報を取り込みます。 これにより、LLM 自体で学習できる情報量に制限されることなく、より正確で詳細な回答を生成することができます。 よく使われているRAGでは、外部知識源として検索エンジンにテキストをインデックスしておき、質問に関連するテキストをベクトル検索や全文検索を用いて取得します。しかし、構造化データを扱うことには苦労するため、質問によっては回答が不十分、あるいはまったく回答できないことに繋がります。 これらの問題を克服するために、ナレッジグラフを用いたRAGが構築されることがあります。ナレッジグラフでは、エンティティとその間の関係がグラフ構造で表現されており、単純な検索を用いた場合には回答できないよ
はじめに 新規事業部 生成AIチーム 山本です。 ChatGPT(OpenAI API)をはじめとしたAIの言語モデル(Large Language Model:以下、LLM)を使用して、チャットボットを構築するケースが増えています。通常、LLMが学習したときのデータに含まれている内容以外に関する質問には回答ができません。そのため、例えば社内システムに関するチャットボットを作成しようとしても、素のLLMでは質問に対してわからないという回答や異なる知識に基づいた回答が(当然ながら)得られてしまいます。 この問題を解決する方法として、Retrieval Augmented Generation(以下、RAG)という手法がよく使用されます。RAGでは、ユーザからの質問に回答するために必要そうな内容が書かれた文章を検索し、その文章をLLMへの入力(プロンプト)に付け加えて渡すことで、ユーザが欲しい
近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル(Large Language Model:LLM)の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日本語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。 大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ
【2024年】チャットボットのおすすめ10ツール(全101製品)を徹底比較!満足度や機能での絞り込みも チャットボットとは、ユーザーとテキストベースで会話を行うプログラムのことです。チャットボットは、メッセンジャーアプリやウェブサイト上で動作し、ユーザーからの質問や要求に自動で応答します。 チャットボットの主な機能は、ユーザーの入力を解析し、適切な情報を提供することです。あらかじめ用意された知識ベースや、外部のデータソースと連携することで、ユーザーのニーズに合った回答を返すことができます。 また、チャットボットはユーザーとの対話を通じて、ユーザーの行動や嗜好に関するデータを収集することも可能です。収集したデータを分析することで、ユーザーのニーズをより深く理解し、一人ひとりに合わせたサービスの提供につなげることができます。 近年、チャットボットは様々な業界で活用され、顧客サポートや販売促進、
Hakkyでは「データでプロダクトを価値あるものにする」というミッションの元、大規模言語モデルを積極的に活用して記事執筆しております。ビジネスにおけるAI活用のため、Handbookをお役立ていただきましたら幸いです。 はじめに 本記事では、RAG (Retrieval-Augmented Generation) の精度改善に焦点を当てて、一般的に行われている RAG の問題点と、それらを解決するために LangChain が提案した発展的な RAG の概要について紹介します。 また、本記事はlanghchain の開発ブログを参考にしています。 RAG とは RAG(Retrieval-Augmented Generation)は、情報の検索(Retrieval)と生成(Generation)を組み合わせることで、よりコンテキストに基づいた回答を可能にするためのアーキテクチャです。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く