こんにちは AIチームの戸田です 今回はLLMを軽量化するPruningを行うライブラリ、SliceGPTを使って日本語LLMのPruningを試してみたいと思います。 SliceGPT LLMに限らず、大規模なニューラルネットワークのパラメータを圧縮する手法の一つにPruningがあります。日本語では「枝刈り」や「剪定」とも訳されており、重要ではないと思われるノード間の重みを削除することでパラメータ数を削減する手法です。こちらの論文などが有名です。 Pruningのイメージ PruningはLLMの圧縮手法として有効な手段なのですが、性能を維持するためにPruning後にRecovery fine-tuningという学習を行わなければならず、これがコストになるという課題がありました。SliceGPTはこのRecovery fine-tuning無しで90%以上の性能を維持したまま、最大2
![SliceGPTを使って日本語LLMをPruningしてみる | 株式会社AI Shift](https://cdn-ak-scissors.b.st-hatena.com/image/square/6d9ffa5503546f43f7ef793328dd20e6d2318d0e/height=288;version=1;width=512/https%3A%2F%2Fwww.ai-shift.co.jp%2Fwp-content%2Fuploads%2F2024%2F05%2Ff81fd2e4c52864042852c112ce927ae2-1.png)