Transformer のパラメータ数を増やしながらも必要な計算量の増加を抑えることができる Switch Transfomer のご紹介です。Google さんのように1兆6千億パラメータは無理ですが、規模が小さいモデルでも効果が見込めるようなので、実際に動かして確認してみたいと思います。 1. はじめに 今回は今年1月に発表された Switch Transformer 1 の話です。 Transformer というモデルはそのサイズに応じて性能が伸びることが良く知られています2。近年どんどん巨大化しており、 Switch Transformer ではついにパラメータ数が1兆6千億個に達しました3。 この連載ではこの手の巨大なモデルは「スゴイのはわかるんですけれど、デモをつつくぐらいで手元で動かせないなぁ~。」とスルーしていたのですが、 Switch Transformer はパラメータ
![はじめての自然言語処理 Switch Transformer の検証 | オブジェクトの広場](https://cdn-ak-scissors.b.st-hatena.com/image/square/4fd2d85a2abdd5cd7431b632bc36def0c0a3d4eb/height=288;version=1;width=512/https%3A%2F%2Fwww.ogis-ri.co.jp%2Fotc%2Fhiroba%2Fimg%2Fhiroba_logo_fb_ogp.png)