CUDAより高速化可能で簡単なOpenACCのランタイム関数で実行中のPGI Unified Binaryの演算デバイスを切り替えられるのか検証してみたCUDAGPGPUGPU機械学習OpenACC この記事は何? CUDA123 に代わる新しい GPU の 標準API 、OpenACC が最近 CUDA よりも高速化できたという結果4を出していて調子が良いので、現状のヘテロジニアス環境でのマルチデバイス実行(複数のデバイス:CPU、GPU、FPGA、メニーコアCPU、ASIC などを組み合わせた演算)の対応状況を調査してみました。 そもそもOpenACCとは? NVIDIAが中心となって本腰を入れているGPGPUなどのハードウェアアクセラレーションの標準APIです。その特徴として最も特筆すべき点はCUDAと比較してプログラミングが超簡単なことです。以前なら性能差がよりシビアでしたが、現在
![CUDAより高速化可能で簡単なOpenACCのランタイム関数で実行中のPGI Unified Binaryの演算デバイスを切り替えられるのか検証してみた - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/0fe2f3e2845fbe6afbb2711e4b7313615bc100e2/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9Q1VEQSVFMyU4MiU4OCVFMyU4MiU4QSVFOSVBQiU5OCVFOSU4MCU5RiVFNSU4QyU5NiVFNSU4RiVBRiVFOCU4MyVCRCVFMyU4MSVBNyVFNyVCMCVBMSVFNSU4RCU5OCVFMyU4MSVBQU9wZW5BQ0MlRTMlODElQUUlRTMlODMlQTklRTMlODMlQjMlRTMlODIlQkYlRTMlODIlQTQlRTMlODMlQTAlRTklOTYlQTIlRTYlOTUlQjAlRTMlODElQTclRTUlQUUlOUYlRTglQTElOEMlRTQlQjglQUQlRTMlODElQUVQR0klMjBVbmlmaWVkJTIwQmluYXJ5JUUzJTgxJUFFJUU2JUJDJTk0JUU3JUFFJTk3JUUzJTgzJTg3JUUzJTgzJTkwJUUzJTgyJUE0JUUzJTgyJUI5JUUzJTgyJTkyJUU1JTg4JTg3JUUzJTgyJThBJUU2JTlCJUJGJUUyJTgwJUE2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmcz03MTM2MWUwZGJlZTg1YWM1OTQ3N2I2NWZlNjczNzY4Ng%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDB0YXhpZnQmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTQwNTVjNmYyYWE0NDZjOTVjMDdhYzI2NDhmNGY2N2I1%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3Da70fed7206c9178e59c27c9b57d9c846)