2038年問題が思ったよりヤバい。検出ツールを作って脅威性評価してみた論文 | Kansai Open Forum 2024
2038年問題が思ったよりヤバい。検出ツールを作って脅威性評価してみた論文 | Kansai Open Forum 2024
TL;DRLLMアプリケーションの運用は従来のMLOpsの手法が通じず、かつ出力の評価が難しいことなどが起因して、非常に難しい上記の課題を解決するために、Langfuseを中枢に据えたLLMOps基盤を用いて、オンライン評価とオフライン評価でリリースを挟み込んだ評価ドリブンなリリースサイクルを回していくのがおすすめ上記を実践するためにまずはアプリケーションのログ・トレースを保存するところから始める次にプロンプトマネジメント導入と、評価データセット作りを数件からでよいので始めるそこからプロンプト実験と、LLM-as-a-JudgeなどのLLM Evaluatorの仕組みを、評価基準など不完全で良いので導入してみる(ドメインエキスパートやユーザーのアノテーションの仕組みを導入できるならそちらも並行して検討する)これらをまずは実践することで、評価ドリブンなリリースライフサイクルが、評価データセッ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く