[B! simd] manabouのブックマーク

manabou id:manabou

simdに関するmanabouのブックマーク (30)

GitHub - minio/md5-simd: Accelerate aggregated MD5 hashing performance up to 8x for AVX512 and 4x for AVX2. Useful for server applications that need to compute many MD5 sums in parallel.
manabou 2024/03/15
md5sum

md5

simd

performance
リンク
SIMDによる将棋Bitboard計算の高速化 - すぎゃーんメモ
自作Rust製将棋合法手生成ライブラリ、計算の高速化のためBitboardの128bit計算をSIMDで行うようx86_64のAVX2、AArch64のNEON、wasm32のsimd128で動くようにそれぞれ実装して各環境で多少速く探索できるようになった。https://t.co/h7Dz3X6BhT— すぎゃーん💯 (@sugyan) July 2, 2022 ということでSIMDでの高速化のメモ。 SIMDとは実装 x86_64 基本演算飛び利き計算 AArch64 同値判定、ゼロ値判定飛び利き計算 Iterator WebAssembly Benchmark x86_64 AArch64 WebAssembly 感想 SIMDとは ja.wikipedia.org の通り、複数のデータを1命令で同時に演算する、というもの。将棋Bitboardは81マスのデータを表現する
manabou 2022/07/08
simd

game

shogi

bitboard

rust

wasm
リンク
GitHub - kaityo256/sevendayshpc: 一週間でなれる！スパコンプログラマ
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
manabou 2021/01/12
programming

hpc

parallel

mpi

simd

numa
リンク
x86/x64最適化勉強会8 レポート - Cybozu Inside Out | サイボウズエンジニアのブログ
サイボウズ・ラボの光成です。今回は2月17日に開催された「x86/x64最適化勉強会8」の模様についてお伝えします。第7回からなんと約3年振りです。今回の発表内容はAVX-512周りの話が2件、命令の正確なレイテンシの話、年明けから世間を騒がせているMeltdownとSpectreの話が2件でした。以下、それぞれの発表内容について簡単に解説します。 AVX-512関係私の発表は「AVX-512（フォーマット）詳解」でした。 AVX-512はまだSkylake-Xなどの一部のCPUにしか搭載されていませんが、今後徐々に採用が増えるでしょう。（注意）21ページの「3値論理」は「3項論理」の方が適切です。 AVX-512のレジスタ構成や基本的な命令セットを説明した後、AVX2までにはなかったマスクレジスタ、静的丸めモード、ブロードキャストなどの解説をしました。マスクレジスタは便利に
manabou 2019/04/16
x86

optimization

cpu

simd

hardware

xbyak
リンク
MKL-DNNで学ぶIntel CPUの最適化手法 - Cybozu Inside Out | サイボウズエンジニアのブログ
初めにサイボウズ・ラボの光成です。 DNN（deep neural network : 深層学習）といえばGPUや専用プロセッサを使うのが主流です。しかしIntelはCPUで高速にDNNをするためのライブラリ MKL-DNN を提供しています。 MKL-DNNはIntelの最新CPUに対応したオープンソースソフトウェアなのでコードを見ると勉強になります。ここではMKL-DNNで使われているテクニックをいくつか紹介します。概要 MKL-DNNの紹介 Xbyakの紹介呼び出し規約圧縮displacement ReLU exp 内積 vpdpbusd キャッシュコントロール想定読者 C++11とx64 CPUのアセンブリ言語の知識をある程度仮定します。機械学習についてはその知識がなくても最適化手法が理解できるよう、最小限の説明をします。 MKL-DNNの特長まずMKL-DNNの
manabou 2019/04/16
intel

cpu

dnn

mkl

optimization

x86

simd
リンク
WebAssembly's post-MVP future: A cartoon skill tree - Mozilla Hacks - the Web developer blog
People have a misconception about WebAssembly. They think that the WebAssembly that landed in browsers back in 2017—which we called the minimum viable product (or MVP) of WebAssembly—is the final version of WebAssembly. I can understand where that misconception comes from. The WebAssembly community group is really committed to backwards compatibility. This means that the WebAssembly that you creat
manabou 2018/10/23
webassembly

simd
リンク
C++でSIMDを書くときのオススメライブラリ libsimdpp
概要 C++でSIMDを書く人向けの良いライブラリを見つけました。 https://github.com/p12tic/libsimdpp SIMDをtemplateで扱うことができるので、SSE、AVXなどの異なった命令セットや、float, doubleなどの異なった型を同じコードで扱うことができます。メリット命令セットを簡単に切り替えられる型を簡単に切り替えられるヘッダーオンリーで導入が楽アセンブラや組み込み関数を使うくらいならlibsimdppを使った方が良いと思います。デメリット GPUと横断の抽象化(OpenCLなど)はできない最新の命令に追従しないかもしれない OpenCLとどちらを選ぶかは吟味する必要がありそうです。 OpenCLだとCPU向けのカリカリチューニングはできないかもしれないので、カリカリチューニングをする必要があるなら、libsimdppが良いと
manabou 2018/10/10
c++

simd
リンク
過去に開発した、高難易度案件の技術概要 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 自分語りすみません。自己紹介ついでです自己紹介学生の頃ふと図書館においてあった古いゲーム雑誌に「ゲーム業界では服装も髪も自由だ。黒髪でリクルートスーツ着ている人より、金髪でラフな服装をしている人のほうが　きっとエンタテイメントな人生をおくってるに違いない。ゲーム業界では独創的な人は大歓迎だ」といったリクルート記事をみて　一瞬でゲームプログラマに決めました学生時代は勉強は出来たけど、集団生活や授業を聞くことが出来ず常に授業中走り回ってました大学も3ヶ月で教師と喧嘩して辞めて　東京に出てフリーでビジネスプログラミングをしまし
manabou 2018/08/30
engineer

simd

gpgpu

performance
リンク
高速化チューニングとその関連技術２
manabou 2018/08/29
performance

slide

simd
リンク
GitHub - AdamNiederer/faster: SIMD for humans
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
manabou 2017/11/22
simd
リンク
Rustでソートアルゴリズム (7)バイトニックソート (SIMDで高速化) - Qiita
# ![feature(repr_simd, platform_intrinsics)] # [allow(non_camel_case_types)] # [repr(simd)] # [derive(Debug, Copy, Clone)] struct i32x4(i32, i32, i32, i32); extern "platform-intrinsic" { fn simd_shuffle4<T, U>(x: T, y: T, idx: [u32; 4]) -> U; fn x86_mm_min_epi32(x: i32x4, y: i32x4) -> i32x4; fn x86_mm_max_epi32(x: i32x4, y: i32x4) -> i32x4; } fn sort(source: &mut [i32]) { #[inline] fn sort8(value1
manabou 2017/10/10
rust

simd

performance
リンク
HotSpot JavaVM の SIMD 最適化を効かせる方法 - Qiita
HotSpot JavaVM のベクトル化変換最近の HotSpot JavaVM はスカラー演算の繰り返し処理をベクトル化し SIMD 命令に変換する最適化を行っています (SIMD とは何ぞやという話は後半参照)。実際に最適化が効くコードで試してみたところ 1.5～2.8 倍程度の速度向上が見られたので、大量の演算処理を行う (GPGPU に頼らない) Java ライブラリでうまく使うことが出来れば有効な最適化手段になるかもしれません。 HotSpot の SIMD 最適化は Superword-Level Parallelism (SLP) に基づいています (以降この最適化は SLP と呼びます)。元々この論文は時代を反映して SIMD 未対応の画像・音声処理をコンパイラやランタイムのレイヤーで SIMD を利用する命令に変換することを目的としていましたが、これは SIMD 命令
manabou 2017/09/28
jvm

simd

performance
リンク
SIMD型について - JS.next
概要新しいプリミティブ型であるSIMD型及びAPIがV8で実装されてきている。 SIMDとは、複数の数値を並べて１つの値としたようなデータ型である。これはCPUによって効率良くサポートされているデータ型であり、 1 + 2 -> 3 をするように [ 1, 2, 3, 4 ] + [ 2, 3, 4, 5 ] -> [ 3, 5, 7, 9 ] を1回の演算ですることができる。つまり、沢山の数値を扱う場面でSIMD型を利用することで、何倍ものパフォーマンス向上が期待できる。（※WASMに入ることとなり、ESからは一旦取り除かれました。）実装される型 float32x4 32bit浮動小数点型を4つ並べた128bitのデータ型 float32はJSの通常のnumberであるところのfloat64より精度が低い int32x4 32bit符号付き整数型を4つ並べた128bitのデータ
manabou 2017/09/20
simd

javascript

cpu
リンク
Writing x86 SIMD using x86inc.asm | Ronald S. Bultje
In multimedia, we often write vector assem bly (SIMD) implementations of computationally expensive functions to make our software faster. At a high level, there are three basic approaches to write assem bly optimizations (for any architecture): intrinsics; inline assem bly; hand-written assem bly. Inline assem bly is typically disliked because of its poor readability and portability. Intrinsics hide co
manabou 2017/07/24
simd

x86

asm
リンク
EmscriptenからSSEとかpthreadを使って爆速にする
Webでとにかく高速に計算したいやまだです。Webでとにかく高速な計算を行うために人生の何％かを使っています。前回はJavaScriptから直接SIMD.jsを呼びましたが今回はEmscriptenを使用し、C言語からSIMD命令を呼び出してみます。題材としては定番ですがマンデルブロ集合を使用します。マンデルブロ集合は以下の漸化式で計算が可能でしばしば並列演算の課題としてとりあげられます。 z は複素数なので実部と虚部をXY平面に表すと以下のようになります。 Emscriptenを使う今回はWebでということでC言語のコードをJavaScriptコードにコンパイルするEmscriptenを使用します。 Emscriptenを使用するとasm.jsを利用した最適化をかけることができるため単純にJavaScriptで実装した時よりも高速になることがあります。 Emscriptenでは
manabou 2017/07/11
simd

simd.js

emscripten

sse

thread
リンク
SIMD / GPU Friendly Branchless Binary Search
The other day I was thinking about how you might do a binary search branchlessly. I came up with a way, and I’m pretty sure I’m not the first to come up with it, but it was fun to think about and I wanted to share my solution. All code in this post is public domain. Here it is searching a list of 8 it ems in 3 steps: size_t BinarySearch8 (size_t needle, const size_t haystack[8]) { size_t ret = (hay
manabou 2017/06/22
simd

gpu

algorithm

binarysearch
リンク
emscripten で SIMD.js を使う - Qiita
emscripten で SIMD.js を使うコンパイル時とリンク時に emcc -s SIMD する。 SIMD.js が使われるケースは3種類ある。 clang デフォルトの LLVM autovectorization が働いて自動的に SIMD 化する GCC 拡張の SIMD Vector Extensions で明示的に使う x86 の Streaming SIMD Extensions 命令を使う。詳細は大本営を読むべし opencv など sse サポートしているものをを asm.js にする場合は 3 が使えそう SIMD.js が有効なブラウザを用意する -s SIMD で JS 出力すると SIMD.js の polyfill が付いてくる。これをそのまま使うと遅くなる。 2017年上半期現在標準で SIMD が有効なブラウザはない。 chrome の場合起
manabou 2017/03/21
emscripten

simd

browser

javascript

opencv

debug
リンク
どれだけ速く文字列からスペースを削除できるのか | POSTD
時によってプログラマは文字列から不要な文字を取り除きたい場合があります。例えば、テキストの一部からすべての行の末尾文字を削除したいとします。その時、全スペース(‘ ‘)や改行コード(‘\n’および‘\r’)を削除する問題を考えてみましょう。効率的に実行するにはどのような方法がいいのでしょうか。 size_t despace(char * bytes, size_t howmany) { size_t pos = 0; for(size_t i = 0; i < howmany; i++) { char c = bytes[i]; if (c == '\r' || c == '\n' || c == ' ') { continue; } bytes[pos++] = c; } return pos; } 上記のコードはUTF-8でエンコードされた文字列で動作します。UTF-8がASCII
manabou 2017/02/21
simd

string

development

performance
リンク
Reddit - Dive into anything
manabou 2017/02/20
simd

youtube

vectorization

performance
リンク
SIMDの組み込み関数のことはじめ - koturnの日記
はじめに現代のCPUではSIMD(Single Instruction Multiple Data)命令を利用することができる． SIMD命令とはその名の通り，ひとつの命令で複数のデータを処理するものである． Intel系のCPUでは，MMX/SSE/AVX/AVX-512といったSIMD命令が利用可能であり，ARM CPUではNEONというSIMD命令が用意されている．各SIMDとSIMD用のレジスタの対応関係は以下のようになる．項目利用可能レジスタ MMX 64bit のMMレジスタ SSE 128bit のXMMレジスタ AVX 256bit のYMMレジシタ AVX-512 512bit のZMMレジシタ ARM NEON 64bitのD(Double-Word)レジスタおよび128bitのQ(Quad-Word)レジスタこれらのレジスタを用いて，例えば4つのint型を一
manabou 2017/02/17
simd
リンク
1 2 次のページ