rydotのブックマーク / 2024年7月21日

任意サイズ正方行列乗算の最適化（その1） - よーる

今まで3回にわたって、行列サイズがコンパイル時にわかる場合の正方行列乗算の最適化を取り扱ってきました（行列乗算の最適化入門 - よーる、行列乗算の最適化入門（マルチコア編） - よーる、行列乗算の最適化入門（GPGPU編） - よーる）。行列サイズがコンパイル時にわかる場合は、コンパイラの自動ベクトル化だけで限界に近い性能が出ました。今回はちゃんとした行列積プログラム、つまり行列サイズがコンパイル時にわからない場合の正方行列乗算の最適化をやっていきます。配列のオーバーラップを気にしているのか、どうにもコンパイラの自動ベクトル化ではうまくいかなかったので、ちょっとだけアセンブリ言語に手を出しました。 5×4レジスタブロッキングカーネル行列乗算の最適化入門（マルチコア編） - よーるで示したように、レジスタブロッキングは5×4が最適でした。これについて、なぜそうなるかの説明は難しいで

はてなブックマーク

タグ

2024年7月21日のブックマーク (1件)

任意サイズ正方行列乗算の最適化（その1） - よーる

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス