複雑なプロンプト(命令文)を理解して高度な計算や回答をするAIを実現するためには、数百億~数兆パラメータもの膨大なトレーニングデータを必要とします。基本的にAIが高度になればなるほど多くのトレーニングデータを必要としますが、GoogleはAIモデルの品質を維持したままデータ量を最大1万分の1まで削減できるラーニング手法を発表しました。 Achieving 10,000x training data reduction with high-fidelity labels https://research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/ 膨大な広告案件の中から安全でない広告コンテンツを分類することは、大規模言語モデル(LLM)により発展が期待されるタスクです。しかし、
