サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ドラクエ3
www.hpc.co.jp
『NVLink Bridgeで複数GPUを繋いだら、それらが1GPUとして扱えるようになるんでしょ?』という誤解をされているお客様をしばしばお見受けいたします。こちらの記事では、それが誤解であること、また、SLIやUnified Memoryといった関連する情報についても整理して解説いたします。間違った期待を抱いて失敗しないように、正しい理解を深めていきましょう。 GPUのメモリ空間は他デバイスから隔絶されています GPU上には演算するためのプロセッサと、データを一時的に置いておくためのメモリ(VRAM)が搭載されています。GPUのメモリを、CUDAで書かれたプログラムから利用するには、cudaMallocでメモリ領域を確保し、cudaMemcpyを使ってホスト(CPU側)のメモリとデータの送受信を行い、GPU上で演算kernelとする関数(以下、GPU-Kernel)を呼び出し、最後にc
ホーム > HPC・Deep Learning・AI > HPC・Deep Learning・AI 製品&サービス > キャンペーン一覧> スパコンランキング4期連続の4冠獲得!「富岳」採用PRIMEHPC FX700 特別価格キャンペーン このたび、ISC High Performance 2021に続き、スーパーコンピュータ国際会議SC21において、富士通と理化学研究所が共同開発したスーパーコンピューター「富岳」が、4期連続の4 冠獲得となりました。 ● TOP500:442.01PetaFLOPS (前回 415.53 PetaFLOPS) ● HPCG:16.00PetaFLOPS (前回 1万3400 TeraFLOPS) ● Graph500(ビッグデータ性能):10万2955GTEPS (前回 7万0980GTEPS) ● HPL-AI(人工知能(AI)):2.004EFLO
はじめに HPCとはHigh Performance Computingの略で、一般には科学技術計算を意味すると認識されています。ところが、この中にどこにも「科学」とか「技術」とかの単語はありません。HPCの定義として高速にデータ処理をするもの全般として広くとらえた方が良いと、ずっと個人的には考えていますが、まだまだ一般的な考え方とは言えないのが現状です。 さて、最初にAWSがLustreをやると聞いた時は、旧来のHPC以外の人はそもそもLustreなんて知らないし、使う理由もないのでは?と思っていました。実際、Lustreをメインのストレージとして使うには初期投資が大きくなりがちで、性能要件から構成を決定する必要もあり、大容量(数百TB〜数PB)が前提となるため、クラウドに組み込むには面倒なわりに、多くのケースにフィットしないように思えます。実際、かなり以前からMarketPlaceにA
RHEL/CentOSについて これらのディストリビューションはその名の通りエンタープライズ用途に用いることを前提に作られ、サポートされています。長期に渡って運用されるシステムのために固定された仕様のまま、セキュリティ対応の修正が入れられています。バージョンが固定されていることで、仕様変更が入らないことが保証され、修正は入っても突然ソフトウエアが使えなくなる恐れはありません。しかしその反面、何年も前に策定された仕様のため、新しいソフトウエアに対応できなくなるという弊害をはらんでいます。 RHEL6.0/7.0のリリースはそれぞれ2010年/2014年なので、10年前/5年前の仕様となっています。それは6.10/7.7がリリースされた現在でも変わりません。yum updateなどとしてアップデートしても、バグ修正された同じバージョンのソフトウエアで置き換えられるので、そうした仕様に関する不整
UBIとは 先日Redhat Enterprise LInux 8がリリースされました。使い勝手の面ではあまり変わりませんが、内部的に多くの更新や変更がはいっており、期待が高まるところです。ところで、同時に発表されたUniversal Base Image(UBI)が話題になっています。これはコンテナ専用のOSイメージで、Redhat社の公式OSイメージであるにも関わらず無償で提供され、再配布まで可能になっています。そのため、自分でコンテナイメージを作る必要がなく、拾ってきたイメージに何かが仕込まれているといった懸念もありません。サブセットながら公式のリポジトリがあり、yumやdnfでアップデート可能なため、コンテナ内のシステムの更新が保証されています。 現時点ではRHEL7/8ベースで、素のイメージの他、PythonやNode.jsなど、いくつかの言語対応済みのイメージが公開されています
すべての電子回路が低温の循環液中で動作 3M 社のフッ素系不活性液体 フロリナート™ 安全、密閉不要、高効率冷却 障害発生率が低く、維持管理が容易 PEZY-SC2 圧倒的な計算パワー 1GHz 動作時、4.1 TeraFLOPS ( Rpeak ) 2,048 個のオリジナルコアと、6 個のMIPS64® 16nm FinFET プロセス 56MB のキャッシュメモリ TCI 三次元積層メモリ. メモリバンド幅2.0TB/ 秒 DDR4 メモリバンド幅 153.6GB/ 秒 PCIe Gen4 I/O バンド幅 64GB/ 秒 48V 給電により、送電電力損失を大幅に低減
下の写真を見て、これを何と認識するでしょうか? 人であれば、犬の画像ということぐらい識別するのは造作もないことです。 では、これをコンピューターに識別させるためにはどうしたら良いでしょうか?どのようにプログラムしたら良いでしょうか? 簡単に思いつく方法としては、犬の特徴を画像から抽出させて判別したらどうでしょうか。犬の顔、手足、しっぽ、これらの犬特有の特徴を定義していき、抽出させていけばどうでしょうか。簡単に言いましたが、それが困難であることは少し考えれば分かるはずです。画像で表現できる犬のパターン全ての定義が必要になります。 Deep Learning(深層学習)とは、この犬を「犬」と認識する能力をコンピューター上で、人間並みに実現させることが可能な手法です。 犬が犬たらしめるもの そもそも人はどのように犬を「犬」として認識しているのでしょうか? 私たちが「犬」を認識するのに明確な定義が
Googlenetのベンチマークをとりました。各GPUでの性能をグラフの青色の棒で示します(Tesla K80はGPUチップ2つで並列しています。)GTX 1080の性能がTesla M40に劣る結果となりました。GTX 1080とTesla M40との差は16%と大きく、GPU上のメモリ帯域幅だけでは説明がつかない差と考えます。ベンチマーク中はGPU負荷率が100%に張り付いていたため、その点からもメモリがボトルネックとは考えにくいです。 GPU上のメモリ消費量はbatch size 60 の時、GTX 1080は88%、M40は56%でした。メモリ量がパフォーマンスに影響してないか確かめるために、batch sizeを30に落としてベンチマークを取りました。この結果をグラフのオレンジ色の棒で示します。batch size が半分になると、メモリ消費量は約半分になり、GTX 1080は4
LinuxなどUNIX系のOSに含まれるbashシェル(OSの一部としてプログラムの起動や制御などを行うプログラム)に脆弱性が見つかりました。この脆弱性は標準的なLinux OSの運用においてネットワーク経由で悪用でき、外部から恣意的なコードを実行される恐れがあります。詳細については以下URLをご確認下さい。 https://access.redhat.com/ja/articles/1210893 https://www.ipa.go.jp/security/ciadr/vul/20140926-bash.html このbashの脆弱性は2014年9月以前にリリースされた全てのLinux OSにおいて該当します。 ・RedHat Enterprise Linux 6 / CentOS 6 bash-4.1.2-15.el6 以前のものが該当します。 bash-4.1.2-15.el6_5
RAIDとは、Redundant Array of Inexpensive Disksの略で、データを複数のハードディスクに分散して格納し、性能と耐障害性を同時に確保する技術のことを言います。RAID方式は大別すると0~5まであり、さらにそれぞれを組み合わせた方式もあります。以下に、主に利用されているRAID方式の概要とメリット・デメリットについて解説します。 データをブロック単位に分割し、書き込み処理を複数のハードディスクに対して同時並行で実行させる方式です。ハードディスクを跨いでデータが帯状に配置されることから「ストライピング」とも呼ばれます。構成するハードディスクの台数に比例して処理速度が高速になります。またハードディスクの全領域を使用できます。反面、障害回復用データを保存しないため耐障害性はなく、構成するハードディスクのうち1台でも障害が発生すると動作不能になります。構成するハード
※glibc脆弱性(バッファオーバーフロー)の修正方法を掲載しました(2016年2月19日掲載)。 ※弊社特記事項といたしましてRedHatEL 6/CentOS 6向けにrshとrsh-serverの更新について追記いたしました(2015年2月4日更新)。 Linuxに含まれるGNU C Library(glibc)に脆弱性が見つかりました。この脆弱性は、十分に深刻な問題で修正が必要ですが、標準的なLinux OSの運用をされている限りにおいては、攻撃の可能性が低いと考えられます。詳細については以下URLをご確認下さい。 https://access.redhat.com/security/cve/CVE-2015-0235 このglibcの脆弱性は2015年1月以前にリリースされたRedHatEL(または互換OS)のバージョン5および6において該当します。 ・RedHat Enterp
プロセッサー・ ナンバーコア数動作周波数 (AVX未使用)動作周波数 (AVX2)動作周波数 (AVX-512)FMA数Last Level CacheDDR4周波数TDP1CPUあたりの 倍精度性能 ※ W-3275
革新的な新アーキテクチャを採用した、インテル® Xeon プロセッサー E3-1200 v3シリーズが発表されました。 「インテル® Advanced Vector Extensions 2 (AVX2)」をはじめとする新命令を搭載し、各コアのクロック周波数あたりの理論ピーク性能を、旧来のインテル® Xeon® プロセッサーに比べて整数演算・浮動小数点数演算共に倍増させた点がまず目を惹きます。今回は、TOP 500のランキングに用いられるベンチマークとして有名なHPLを、インテル® Xeon プロセッサー E3-1200 v3シリーズで走らせ、その性能向上を検証いたしました。 インテル® Xeon プロセッサー E3-1200 v3シリーズでは、従来のインテル® Xeon プロセッサーから以下の命令が追加されています。 整数ベクトル命令の256ビット拡張と、それに関連した整数ベクトル命令の
この連載では、Linux を使いこなすためには、必須の項目と言えるテキストエディタ Vi の使い方を解説していきます。この講座が終了する頃には皆さんが使いこなせるよう、判りやすく解説します。
インテル社からコプロセッサー Xeon Phi 5110Pが発表され、高い浮動小数点数性能に注目が集まっています。 しかし、コプロセッサーやアクセラレータでは、それらに向けて既存のアプリケーションソースコードを書きなおす手間が導入障壁として問題視されます。その中で、インテルMKL 11.0の一部の関数ではソースコードを修正することなくホストCPUとXeon Phiデバイスを自動的に併用して計算を高速化する「Automatic Offload」機能が利用可能になっています。この実効性能を明らかにするべく、行列積(gemm)ベンチマークを行いました。結果、ソースコード修正することなく、複数枚のXeon Phiデバイスを併用して計算が大きく高速化されることを確認できました。 ソースコードには、sgemm/dgemm関数を実行する既存のCPU向け行列積ソースコードをそのまま用います。 そして、イン
この連載では、HPCシステムズのオンサイト担当者が Linux/Unix 環境で広く使われている高機能なテキストエディタ Vi の使い方について、起動方法から便利な機能まで、順に説明します。 Linux で設定ファイルを編集するときに、ほとんどの場合使われるのが Vi エディタです。Linux を使いこなすためには、必須の項目と言えます。Vi の使い方を覚えれば、直接 Linux 上でファイルを編集することができるようになり、あなたの Linux ライフがより一層充実したものになることをお約束します。いちいち Windows にファイルを転送して編集して、再度ファイルを Linux に送りなおすという煩雑な手順と時間を節約することができます。コマンドを入力する必要があるので慣れるのに時間はかかりますが、この講座が終了する頃には皆さんが使いこなせるよう、判りやすく解説します。 本連載の中の画
Phiは1GHz 200コア(物理50コア × Hyper Threading 4スレッド)サーバと覚えます。 つまり、このボードの中に、1GHzで動作するCPUを200コア搭載したLinuxサーバがある、と考えてください。大雑把ですが、それで実体をほぼあらわしています。 評価結果を端的に述べますと、Phiには有望3割、失望7割を感じました。詳細を説明いたします。まずは有望なデータから。 2012年現在、インテルのCPU E5-2600シリーズの1ノードとNVIDIAのTesla M2090の1枚は、単精度行列積の性能が674Gflops程度となっています。ベンチマークページ そんな中、Phiは1枚で1290Gflops(従来比ほぼ2倍)の実効性能を達成しました!これは潜在的に強力な浮動小数点数演算性能を有していることをアピールしています。 また、Phiは「従来のIAアーキテクチャのアプリ
科学技術計算機用の OSとして採用されることがあるWindows OS のうち、代表的なOSについてサポートされている最大物理メモリサイズとCPUソケット数についてまとめました。 64bit OSのタイプ OSのエディション 対応CPU ソケット数 (最大) 対応 メモリ (最大)
HPCシステムズでは、科学技術計算やCAE解析、HPC(ハイパフォーマンスコンピューティング)分野にて利用されるアプリケーションやOS、その他関連ソフトウェアのライセンスの取扱い、販売、インテグレーションを行っています。 高性能・高信頼なシステムを構築するためにソフトウェアベンダーや開発者からの協力を得たり、必要であればライセンスを購入して検証を繰り返しています。お客様はその経験と知識を、用途に応じたシステム構築に活かすことができます。 また可能であれば実機をご用意いたしますので、実データでの性能エビデンスの取得もご用命ください。
各種研究機関や教育機関ではMacintoshマシンをご利用している研究者の方々が多数おいでになります。 その洗練された外観やインタフェース、UNIXとの親和性、管理のしやすさなどから根強い人気があるものと思われます。 入力ファイルの準備や計算結果のビジュアライズを行うワークステーションとして利用するために、ご自身のMacintosh マシンをLinuxクラスタ計算機に接続してログインする方法について以下にご説明いたします。 『ターミナル』を使ったキャラクタベース(CUI)での接続 Mac OS Xには標準の端末エミュレータとして『ターミナル(Terminal)』アプリケーションが付属しています。 1. インストール OSに標準で装備されているため、別途インストールを明示的に行う必要はありません。 2. 起動方法 『Finder』から、[アプリケーション]-[ユーティリティ]-[ターミナル]
HPCに必須のECCメモリ ■ 製品に関するお問い合わせ。 E-Mail : info@hpc.co.jp 電話 : 03-5665-0231 FAX : 03-5665-0236 弊社製品は全て ECC メモリ対応 ECC対応メモリ この、「ECC」とは「Error Correcting Code」の略称で、日本語では「誤り訂正符号」という意味になります。このECCは、メモリに誤った値が記録されている事を検出 し、正しい値に訂正する為の機能で、高い信頼性が求められるサーバ機などの記憶装置やバス(データ伝送路)に利用される事が多く、いわば高性能HPCの必須機能となります。これは64ビット幅のメモリモジュールに8ビットの誤り訂正用データを対応させ、64ビットのうち1ビットが誤った値になった時に、これを検出して訂正します。 また、このECC機能を有したメモリを利用するにはチップ
Gaussian 03では様々な種類の密度汎関数理論(DFT)[75,76,448,449]モデルを利用することができます(DFT法やその応用に関する議論については,[448,450,451,452,453,454,455,456,457,458,459,460,461]も参照してください)。エネルギー[78],解析的グラジエント(勾配),真の解析的振動数[197,198,199] を全てのDFTモデルで求めることができます。freqmemで与えられる最適なメモリサイズと同じだけのメモリが,より一般的なモデルでは必要です。 自己無撞着反応場 (SCRF) をDFTエネルギー,最適化,振動数計算と組み合わせて,溶媒中の系を取り扱うことも可能です。 ピュア(純粋)DFT計算ではdensity fittingを利用することも可能です。詳細についてはここを参照してください。 次のサブセク
HPL Benchmark Results(2008年3月24日 更新) スーパーコンピュータの性能比較「Top Supercomputer Sites」で用いられるベンチマークプログラムです。 広く計算機の性能比較に用いられており、CPU性能について把握することができます。HPLは連立方程式の解を求めるプログラムで、浮動小数点演算の性能を計測することができます。 1秒間に処理できる浮動小数点演算命令の数、FLOPS(Floating point number Operations Pre Second)という単位で計測結果を比較します。
マルチコアCPUの恩恵を享受する方法 ■ 製品に関するお問い合わせ E-Mail : info@hpc.co.jp 電話:03-5665-0231 FAX : 03-5665-0236 Multi-Core CPUの恩恵を享受するには、ひとつのジョブを複数のプロセスに分け同時に実行することで、時間のかかるジョブを早く終わらせてスループットを稼ぐ方法と、ジョブをそのまま並列化させずに複数同時に実行することで、トータルのスループットを稼ぐ方法があります。 シングルスレッドアプリの複数同時実行で高いスループットを実現 デュアルコアシステムは、今までのシングルコアのシステムよりCPUクロック、FSBが落ちるので、1プロセスを速く走らせるという点においてはシングルコアに劣りますが、2ジョブを同時に実行させてもほぼ1ジョブひとつ実行するのと同じ時間で終了させることができ、トータルのスルー
Gaussian 03 オンラインマニュアル Last update: 4 April 2003 Copyright Gaussian Inc. Translated into Japanese by HIT Co., Ltd.
ジョブ管理ソフトウェアPlatform LSFのご紹介 ■ 製品に関するお問い合わせ E-Mail : info@hpc.co.jp 電話:03-5358-8961 FAX : 03-5358-8966 刻々と変化する計算機の負荷状況をリアルタイムに把握するLSF クラスタ内の各計算機の負荷の偏りを防ぎシステム全体の高稼働を実現するLSF ユーザの計算機利用を自動化するLSF 共同利用環境における不確定要素を吸収するLSF 休日や夜間などでも計算機を効率的に稼動させるLSF 共同利用環境における計算機利用ユーザ間の公平性を守るLSF 高額な商用ソフトのライセンスを増やさずスループットを向上させられるLSF 多様化するジョブ形態に対応するLSF ヘテロ環境を統合するLSF クラスタ利用統計を出力できるLSF ・複数のユーザーが共同で利用で
Multi-Core CPUの恩恵を享受するには、ひとつのジョブを複数のプロセスに分け同時に実行することで、時間のかかるジョブを早く終わらせてスループットを稼ぐ方法と、ジョブをそのまま並列化させずに複数同時に実行することで、トータルのスループットを稼ぐ方法があります。 シングルスレッドアプリの複数同時実行で高いスループットを実現 デュアルコアシステムは、今までのシングルコアのシステムよりCPUクロック、FSBが落ちるので、1プロセスを速く走らせるという点においてはシングルコアに劣りますが、2ジョブを同時に実行させてもほぼ1ジョブひとつ実行するのと同じ時間で終了させることができ、トータルのスループットを稼ぐという点においてはシングルコアのシステムより優れています。 est_human BLAST Test Database : Apr 24 2005 est_human Imp
次のページ
このページを最初にブックマークしてみませんか?
『HPCシステムズ株式会社』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く