大規模言語モデル(LLM)をわずか4GBほどの実行ファイル1つで手軽に配布・実行できるようにしたパッケージ「llamafile v0.7」が公開されました。このバージョンではCPUとGPU両方の計算性能と計算精度が向上しており、命令セットアーキテクチャ「AVX-512」のサポートにより、AMDの「Zen4」アーキテクチャ採用CPUなどでプロンプト処理時間が10倍高速化されるとのことです。 Release llamafile v0.7 · Mozilla-Ocho/llamafile · GitHub https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.7 Llamafile 0.7 Brings AVX-512 Support: 10x Faster Prompt Eval Times For AMD Zen 4 - Phoro
![大規模言語モデルを単一ファイルで配布・実行する「llamafile」のバージョン0.7で処理能力が最大10倍高速化](https://cdn-ak-scissors.b.st-hatena.com/image/square/207caa56358929a02b401a5743e8d7b8cb7ca80f/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2024%2F04%2F02%2Fllamafile-10x-faster-prompt-evaluation-times%2F00_m.png)