サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大谷翔平
blog.goo.ne.jp/sdpaninf
Caffe (機械学習ライブラリ)のインストールを CentOS 7.2 搭載サーバに行った。 サーバは以下の二種類 ◯計算サーバ1 Huawei RH5885H V3 CPU :Intel Xeon E7-4890 v2 @ 2.80GHz x 4 socket Memory :2.0TB (32GB LRDIMM x 64 DIMMs) GPU : NVIDIA Tesla K40m x 4 HDD :2.5-inch 300GB SAS 15000rpm HDD x 2 SSD : ES3000 2.4TB x 2 + 2.5-inch 800GB SSD (Intel DC S3500) x 8 RAID :RAID-0/1/10/5/50/6/60 1GB Cache with Power Protection NIC :On Board 1GE x 4 port interfa
最短路問題に関してアルゴリズムの教科書や授業や講演等で使用されている資料に以下のように書いてあるのを見かけることが多い。 1:ダイクストラ法においてはポテンシャル最小の点を見つける際に優先キュー(ヒープ、特に2-ヒープ)などを使用すると実行時間が速くなるが、フィボナッチヒープを使うとさらに速くなる。 ○点数を n, 枝数を m とする。2-ヒープでは計算量が O(m log n)、 フィボナッチヒープを使うと O(m + n log n) になるのだが、実際にはフィボナッチヒープを使うと実行があまり速くならない(むしろ遅い)。実用的に高速なのは ヒープ(heap)、バケット(bucket)、マルチレベルバケット(MLB)あたりのデータ構造である。 2:全対全最短路問題に対しては、1対全最短路問題に対するダイクストラ法を点の数だけ繰り返すよりもワーシャル・フロイド法(Warshall-Flo
アルゴリズムやデータ構造の性質から、グラフアルゴリズムは GPU との相性は良くない。しかし、以下の論文では苦手のグラフアルゴリズムを GPU でどれだけ高速化できるかということについて挑戦を行っている。多くの GPU の研究(特に国内)は明らかに GPU で性能が出しやすい題材しか扱っていないので、以下の論文のチャレンジ精神は賞賛に値する。 Large Graph Algorithms for Massively Multithreaded Architectures 以下は CPU 上でのダイクストラ法(最短路問題)の実験結果になるが、これと比較すると例えば全米データで1対全の最短路問題を解いたときに CPU では 5 秒程度で終了するが、GPU(Tesla) 上では 672秒かかっている(上記の論文の23ページ)。ただし、5秒というのはかなり手間隙かけてプログラムを作成した場合の結果
以前のクラスタでは SCore 5.8.3 をインストールして SCore に付属の PBS をジョブマネージャーに用いていたが、今度は SCore を使用しないので自分でジョブマネージャーを用意する必要がある。Sun Grid Engine あるいは Condor なども視野に入れたが、OS が新しいのと小規模なクラスタ計算機での運用なので TORQUE Resource Manager (旧 OpenPBS)を用いる。これはフリーのソフトで性能や機能的にも現在の規模で運用するには十分なのでインストール&設定作業を行った(以下細かい手順は省略)。 1: 上記のサイトからソースを得る。全部のノード(Server & Compute nodes)で configure & make & make install 計算ノードでは pbs_mom 以外は必要無いようだが、面倒なので全部入れる。こ
今まで gcc で Intel Core2 などの CPU 用に最適化するコンパイラオプションとして -march=nocona を用いてきた。nocona とは 2004 年に登場した Intel 初めての EM64T の CPU コアのことだったので、すでに4年近く前になる。その後 Core や Core2 などが登場してもずっと -march=nocona というオプションを使ってきた。gcc 4.3 からは -march=core2 という新オプションが誕生している。 よって、SDPA 7.1.0 を用いて -march=nocona と -march=core2 のどちらが速いのかを比べてみよう(CPU は Intel Core2 E8200)。 -march=nocona mcp2000-01.dat-s 199.30s BeH.2Sigma+.STO6G.pqgt1t2p.d
今月の日経サイエンスに”量子コンピュータも苦手な問題”という特集がある。既存のコンピュータでもクラス P の問題は効率良く(多項式時間で)解くことができる。多項式時間でというところが曲者で O(n^100) でも n の多項式なので効率が良いという話になる。現在のコンピュータが出来ることは以下のようになる。 1:クラス P の問題を多項式時間で解くことが可能 2:クラス NP の問題の解の検証が多項式時間で可能 3:ある NP 完全問題から別の NP 完全問題への変換が多項式時間で可能 というわけで、現実問題から考えると最適に解くという意味ではあまり大したことができるわけではない。そこで量子コンピュータに期待が集まっているのだが、量子コンピュータで効率良く解くことができる問題のクラスは BQP (bounded-error, quantum, polynomial time)と呼ばれていて
Parallel Python を使うと Python から簡単にジョブ並列(タスク並列)を行うことができる。以下のような環境で使用することができる。Linux マシン(クラスタ)で試したみたところ、確かに簡単に出来た。 1: SMP(マルチコアも含む)のマシンで並列計算 2: クラスタ計算機上での並列計算 (1も含む) Parallel Python をダウンロードページから入手して、展開した後に python setup.py install とすればインストールは終わり(管理者権限のユーザで行う必要あり)。サンプルファイルとして配布されている sum_primes.py を用いてみよう。 1 の場合: python sum_primes.py [ncpus] とすれば良い。[ncpus] は同時に使用する CPU(コア) の数。 1CPU : 5.731s 2CPU : 3.012s
このページを最初にブックマークしてみませんか?
『最適化問題に対する超高速&安定計算』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く