GoogleやAmazonが投資するAIスタートアップのAnthropicの研究チームが、ニューラルネットワークがどのように言語や画像を扱っているのかを解き明かす研究において、個々のニューロンを「特徴」と呼ばれる単位にまとめることでニューラルネットワークの中身を解釈しやすくなるという研究結果を発表しました。 Anthropic \ Decomposing Language Models Into Understandable Components https://www.anthropic.com/index/decomposing-language-models-into-understandable-components 大規模言語モデルは多数のニューロンが接続されたニューラルネットワークで、ルールに基づいてプログラミングされるのではなく、多数のデータを元にトレーニングを行うことでタス
![ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント](https://cdn-ak-scissors.b.st-hatena.com/image/square/e1cc99b2a1e201b16168694800af4f9fca441a6f/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2023%2F10%2F10%2Fdecomposing-language-models-into-understandable-components%2F00.png)