t-wadaのブックマーク / 2023年9月25日

t-wada id:t-wada

2023年9月25日のブックマーク (2件)

ソフトウェア開発の真の問題点は、コードを書くことではなく、問題の複雑さの管理にある - YAMDAS現更新履歴
www.oreilly.com オライリー・メディアのコンテンツ戦略部門のバイスプレジデントであるマイク・ルキダスの文章だが、彼が数週間前、「コードを書くことが問題なのではない。複雑さをコントロールすることが問題なのだ」というツイートを見かけた話から始まる。彼はこれに感心したようで、これから何度も引用すると思うので、誰のツイートか思い出せればいいのにと書いている（ご存じの方は彼にご一報を）。件のツイートは、プログラミング言語の構文の詳細や API が持つ多くの関数を覚えることは重要じゃなくて、解決しようとしている問題の複雑さを理解し、管理することこそが重要だと言ってるわけですね。これは皆、覚えがある話だろう。アプリケーションやツールの多くは、最初はシンプルである。しかも、それでやりたいことの80％、いやもしかしたら90％をやれている。でも、それじゃ十分ではないと、バージョン1.1でいく
t-wada 2023/09/25
"解決しようとしている問題の複雑さを理解し、管理することこそが重要" "大規模で複雑になるにつれ、ソフトウェア・アーキテクチャの重要性は増す" "自動生成にとらわれ過ぎて、複雑さをコントロールするのを忘れない"
リンク
LLMを用いたLLMの自動評価について〜可能性と注意点〜 - NTT Communications Engineers' Blog
こんにちは、イノベーションセンターの杉本（GitHub：kaisugi）です。普段はノーコード AI開発ツール Node-AI の開発に取り組む傍ら、兼務1で大規模言語モデル（LLM:Large Language Model）について調査を行なっています。特に、日本語を中心に学習された LLM への関心があり、awesome-japanese-llm という日本語 LLM をまとめた Web サイトのメンテナンスにも取り組んでいます。今回は、LLM に LLM の評価そのものを行わせるという新たなアプローチ（LLM-as-a-judge）についてご紹介します。 ChatGPT の登場以降、国内外で LLM の開発競争が進行しており、モデルの重みが公開されたオープンなモデルも続々と現れています。そのような中で、新しいモデルの構築だけでなく、どのモデルが優れているかを比較検討することが今後ます
t-wada 2023/09/25
強力なLLM（例: GPT-4）にLLMの評価そのものをやらせるLLM-as-a-judge の解説と実践 "実際に運用する上では、単に出力の優劣を決めるだけではなく、さまざまな観点から出力を評価できるようなプロンプトを設計する必要がある"
リンク
- 2023年9月29日
- 2023年9月25日
- 2023年9月24日