digimedaloterのブックマーク / 2015年3月24日

SSEとAVXで高次元ベクトルの内積計算を高速化してみた | さかな前線

世界最速のお魚と言えばカジキ類で，泳ぐ速度は時速100km/hを超えるとか．55ノット程になるのでこれはMk-48魚雷にも匹敵するほどです．一方ちょっとチートな高速お魚としては，お馴染みトビウオが飛行中に最大70km/hほどに達するとか．今日はそんな若干チートな高速化のお話（？）ということで，SSE組み込み命令について． SSEやAVXといえばお馴染みSIMD命令で，それをプログラムから構造体と関数の形式で高移殖に記述する方法がSIMD組み込み関数(SIMD Intrinsic)なわけですが，これを使ってごく典型的なベクトルの内積計算を高速化してみました．ベクトルの内積の高速化と言えば星の数ほどもされてる話なわけで，いまさら魚の情報なんか役に立つ気は全くしないのですが，純粋に自分でやらないとわかんない＞＜　ということで，とにかく書いてみよう効果の程はいかに？を調べてみたくて，や

digimedaloter 2015/03/24

リンク

SSE.浮動小数点演算手動最適化は本当に効果的なのか - デー

ちょっと試したので、結果をコピペ。概要とたてまえ SSEは、x86のSIMD命令セットに含まれる浮動小数点演算の複数同時実行を行う命令セットです。単精度(float)で4つ、倍精度(double)で2つの演算を1命令で実行できるため、うまく使うと繰り返し同じ演算のパフォーマンスアップを期待できます。 Streaming SIMD Extensions - Wikipedia 画像処理や、確率の計算などでは浮動小数点数の計算を数百万回から回数とかいうレベルではなく3日間くらいの規模で行うことがあるので、少しでも速くなると時間的にとてもうれしい！計算をどこで妥協するかみたいな部分があるため速く計算を終わらせることでやれることの可能性が広がる！という思いがあります。 CUDAのほうが云々 CUDAは、NVIDIAのGPUが対応しているGPGPUの環境です。GPGPUというのは、グラフィッ

digimedaloter 2015/03/24

リンク

Intel(R) Core(TM)2 Duo Processor Overview

Using Intel.com Search You can easily search the entire Intel.com site in several ways. Brand Name: Core i9 Document Number: 123456 Code Name: Emerald Rapids Special Operators: “Ice Lake”, Ice AND Lake, Ice OR Lake, Ice* Quick Links You can also try the quick links below to see results for most popular searches. Product Information Support Drivers & Software

digimedaloter 2015/03/24

“Closing the Ninja Performance Gap”

リンク

いまどきのmatmul

概要経緯 : http://d.hatena.ne.jp/w_o/20141021#1413893835 Host 1700msec、Epiphany 170msecとかになって、さすが、16coreだから10倍速いみたいな話になったが、経験的に、こういうのってナイーブCと比較してるから、普通にマルチスレッド & NEON使えば、10倍差ぐらいすぐはやくなんじゃね？と、思ってNEON + スレッド化matmulを探したのだけど、見当たらなくて、探すより書いたほうがはやそうだったので書いた。というのがあって、今更matmulを実装したのでその話について書く。 1ノード Haswell 正方行列単精度サイズは128の倍数だとか制限付けてもよいという条件でどうやって効率上げていくかについて説明する。今日の結果は N = 2000〜3000 で効率 80% ぐらい。まあ多分もっと

digimedaloter 2015/03/24

リンク

x86/x64最適化勉強会7 レポート - Cybozu Inside Out | サイボウズエンジニアのブログ

サイボウズ・ラボの光成です。今回は3月15日に開催された「x86/x64最適化勉強会7」の模様についてお伝えします。前回から約1年半振りと久しぶりの開催です。今回の発表内容は浮動小数点数周りの話が2件、CSSパーサ周りの話が1件、暗号関係の話が3件でした。以下、それぞれの発表内容について簡単に解説します。浮動小数点数関係 @ksmakotoさんの発表は「非正規化数のFZ（FTZ）とDAZの違い」（動画1）でした。浮動小数点数には正しい精度で扱える最小の正の数DBL_MIN（約2.225074e-308）があります。 0とDBL_MINの間の数は精度は落ちるけれども扱うことはでき、非正規化数と呼ばれます。非正規化数を扱うのはなかなか難しく、ハードウェアやソフトウェアによってはサポートしていなかったり、していてもとても遅かったりすることがあります。そのため非正規化数を0と見なすこと

digimedaloter 2015/03/24

リンク

クラウドを支えるこれからの暗号技術 - Cybozu Inside Out | サイボウズエンジニアのブログ

サイボウズ・ラボの光成です。私は先月のDevelopers Summit 2015で、「クラウドを支えるこれからの暗号技術」という講演をいたしました。そのとき、近いうちに詳細なテキストを公開する予定と申し上げました。その準備ができましたので報告いたします。講演と同じタイトル『クラウドを支えるこれからの暗号技術』のpdfはgithubから取得できます。 2015/6/21追記。このテキストが秀和システムから出版されました。表題の講演は、主に2000年に入ってから登場した新しい暗号技術の紹介がメインです。そのときのプレゼン資料は3月の時点で4万5千ビューを超えていて、デブサミ資料の中でもかなり上位に入る閲覧数のようです。技術者の暗号に関する関心が高いことを伺わせます。しかし一般向けの暗号のテキストは、公開鍵暗号の一つであるRSA暗号やElGamal暗号ぐらいしか詳しい原理が記されていな

digimedaloter 2015/03/24

リンク

SPGL1: A solver for large-scale sparse reconstruction

SPGL1 is a Matlab solver for large-scale one-norm regularized least squares. It is designed to solve any of the following three probl ems: SPGL1 relies only on matrix-vector operations and and accepts both explicit matrices and functions that evaluate these products. SPGL1 is suitable for probl ems that are in the complex domain. The theory underlying SPGL1 is described in these papers: Probing the

digimedaloter 2015/03/24

リンク

はてなブックマーク

タグ

2015年3月24日のブックマーク (7件)

SSEとAVXで高次元ベクトルの内積計算を高速化してみた | さかな前線

SSE.浮動小数点演算手動最適化は本当に効果的なのか - デー

Intel(R) Core(TM)2 Duo Processor Overview

いまどきのmatmul

x86/x64最適化勉強会7 レポート - Cybozu Inside Out | サイボウズエンジニアのブログ

クラウドを支えるこれからの暗号技術 - Cybozu Inside Out | サイボウズエンジニアのブログ

SPGL1: A solver for large-scale sparse reconstruction

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス