LLM の学習やファインチューン, つよつよ GPU でないとできない, つらい... でも本当につよつよ GPU いるのだろうか...🤔 deepspeed で解決するにしても一定のメモリはやっぱりいるようだが, Backprop でのメモリ消費無駄じゃね... (最近は GPU <-> CPU(NVMe)間で mmap 的(Unified memory 的)なのも出てきたけど, pytorch とかではまだサポートないっぽ?) ファインチューンだけでも, Forward だけでなんとかならんかのう... あと, 量子化した Forward model(network) だけでファインチューンできたらより幸せ... => とりあえずはQLoRA で幸せになれそう. The Forward-Forward Algorithm: Some Preliminary Investigation