良い本がある コンピュータシステムの理論と実装という良い本がある。 コンピュータシステムの理論と実装 ―モダンなコンピュータの作り方 作者: Noam Nisan,Shimon Schocken,斎藤康毅出版社/メーカー: オライリージャパン発売日: 2015/03/25メディア: 単行本(ソフトカバー)この商品を含むブログ (4件) を見る nand と flip-flap だけが最初に与えられた素子として、それをもとに加算器やメモリを組み立ててコンピューターを組み立てる。 そして、そのコンピューター上で動くテトリスというコンピュータゲームを開発するというものだ。(実は最後はテトリスではないが) 本書の前書き曰く、ハードウェア、アーキテクチャ、オペレーティングシステム、プログラミング言語、コンパイラ、データ構造とアルゴリズム、ソフトウェアエンジニアリングという、コンピュータサイエンスの基
なかなか実用化されない 光コンピューター 昔から、計算性能を引き上げるためにどんな素子が利用できるかに関してはさまざまな研究がなされてきていた。大昔で言えばジョセフソン素子が一時期注目されたことがある。 これはジョセフソン効果(Josephson effect:英国のBrian David Josephson博士によって発見されたことでこの名前がある)を利用したもので、通常のCMOSなどに比べると数桁高速なスイッチング速度を実現できるということで、将来のコンピューターに採用されると一時期もてはやされたものだが、あいにくとジョセフソン効果は超電導環境下でないと発生せず、このため液体ヘリウムなどを利用した超低温環境を用意する必要があり、いまだに研究段階に留まっている。 今だと量子コンピューターがその最右翼に入るのだろうが、こちらもなかなか常温で動作するレベルではない(やはり液体ヘリウムでの冷却
ライセンスフリーで利用できることから、x86やArmに取って代わる存在として注目を集めているRISC-Vアーキテクチャを採用したCPUコアが、すでに市場に100億個出回っているとのことです。 このスピードはArmよりも速く、2025年には800億個に達すると予測されています。 12年で100億個を達成したRISC-V RISC-V Internatioanlの最高経営責任者(CEO)であるカリスタ・レドモンド氏はEmbedded Worldにおいて、RISC-Vアーキテクチャを採用したCPUコアがすでに市場に100億個出回っていると発表しました。 現在スマートフォンのメインCPU市場をほぼ独占しているArmアーキテクチャが100億個の達成に17年かかったのに対し、RISC-Vは12年でこの個数を達成しています。 レドモンド氏は2025年までにRISC-Vアーキテクチャ採用のCPUコアが市場
連載673回でも触れたが、インテルはようやく初のEUV(極端紫外線)露光を採用したIntel 4プロセスの詳細を、6月に開催されたVLSIシンポジウムで発表した。 まだ開催されてから時間が経っていないこともあって、IEEEのサイトには論文が掲載されていないが、今月中には公開されると思われる。今回は論文の方ではなく、実際に講演した際の資料をベースに、これを説明していく。 22年間で10ノードを開発した インテルプロセスの歴史 まず簡単におさらい。下の画像がここ20年ほどのインテルのプロセス一覧である。2000年から2022年の22年間で10ノードなので、ノードあたり2.2年ほどという見方もできるが、10nm/10nm SuperFin/Intel 7が事実上同じノードと考えると実質8ノード、ノードあたり3年弱となる。22nmまでは2年おきに刷新されていたわけで、14nm以降が11年かけて4ノ
Two years ago more or less I started my journey in Linux. I was scared at first and I didn’t know where to start from. But then I decided to buy a book - and what a book! - in order to follow a path. Along the way, I integrated the material with up-to-date documentation from kernel.org and source code. In the meantime, I started to learn C a bit so that I also could have played with what I was lea
Kernel/VM探検隊は、カーネルやVM、およびその他なんでもIT技術の話題ジャンルについて誰でも何でも発表してワイワイ盛り上がろうという会です。takeoka氏は、8進数について調査、発表をしました。 よく使う命令は暗記をしていた16進世代 takeoka氏(以下、takeoka):takeokaです。低レイヤー、長い人生、そして……まぁ、格調が低い話をします。 私は16進世代です。若い人にはわからないかもしれませんが、昔はTK-80しかなく、assembleしてくれる機械なんて持っていなかったので、みんなアセンブラ・ニーモニックでバーっとプログラムを書いて、それが終わったらおもむろに16進コードへの変換を手でやっていました。だからよく使う命令は、基本的に暗記していました。 あれですね。HLレジスタへのimmediateのloadは「21」とか、Aレジスタへのimmediate loa
これは物理学アドベントカレンダー2021の12/18の記事ですが、書き進めるうちに物理とほぼ無関係になりました。 そのうえ途中で宣伝が入ります。 さてコンピュータと言えば 「あなたはまるでコンピュータだわ。0と1で考える機械人間なのよ」 という罵声に象徴されるように、本質は0と1、という思想が大流行しています。 これにイチャモンを付ける記事なわけですが、まず前提を知るために、定番の「コンピュータのしくみ」のお話をします。 コンピュータの、よくある説明 雑に描くと、電子回路としてのコンピュータは以下のような感じです1。 CPUに様々なデバイスが繋がっています。 青(0)と赤(1)がチカチカしていますが、これは電気信号を表しています。 人がキーボードを叩くと、0や1の信号がCPUに届き、情報が処理され、そして0と1の信号がディスプレイに送られるわけです。 処理の中心はCPUですが、これは 0や
「x86 か x64 か選べって言われてもな...?? でかい方が強いのかい?」 「amd64 と arm64 の違い...?? 使ってる文字はだいたい一緒だね!」 くらいの知識の人が「強そうとか字面が似てるとかで判断するのはまずいかもしれない。ここはひとつ M1 Mac をいじりながらこんぴゅーたぁの勉強をしよう。」と思い調べたことをまとめました。 この本は M1 Mac やコンピュータの基礎の基礎の一部を超ざっくりと理解し、普段使っていてふと壁に当たったときに「ダイジョブ イマノオレナラ チョットワカル」という気持ちになれることを目的としています。 逆にこの本はコンピュータ発展の歴史を解説したり、画一的な用語の定義を議論したり、おすすめ設定集を紹介するものではありません。 M1 Mac を買おうか迷っている人や買ってみた人の参考になれば嬉しいです。
中国の研究チームが、オープンソースの命令セットアーキテクチャ(ISA)・RISC-Vを用いてArmの「Cortex-A76」に迫る性能を持ったCPU「XiangShan」を開発しました。研究チームは新型コロナウイルスの感染拡大に伴って封鎖された深圳で開発に取り組み、超高速なCPU開発を成功させています。 GitHub - OpenXiangShan/XiangShan: Open-source high-performance RISC-V processor https://github.com/OpenXiangShan/XiangShan 首届 RISC-V 中国峰会 2021 年 6 月 21 日起在上海举行,有什么值得关注的地方? - 知乎 https://www.zhihu.com/question/466393646/answer/1955410750 XiangShan o
このブログは、株式会社フィックスターズのエンジニアが、あらゆるテーマについて自由に書いているブログです。 TL;DR: Issue, PR ソリューション第二事業部の今泉です。 先日東京大学の松井先生と共同でFacebook AI Research(以下FAIR)が公開している近似最近傍探索ライブラリFaissの4bit PQアルゴリズムのARM CPU(aarch64)上での動作を60倍程度高速化しました。 本稿ではまず近似最近傍探索やFaissについて軽く紹介した後、その高速化内容について解説を行います。 近似最近傍探索について まず最近傍探索とは、「複数のベクトルからなる集合 \( \mathit{Vs} \) が存在し、あるベクトル \( \boldsymbol{x} \) に対して最も近い要素 \( \boldsymbol{v} \in \mathit{Vs} \) を求める」と
はじめに 深層学習を軸とした研究開発には大きな計算資源が必要です。 PFNでは深層学習ワークロードに特化した計算機資源として深層学習用アクセラレータであるMN-Coreを開発し、実際に弊社のスーパーコンピュータであるMN-3に搭載し運用を行っています。本記事では、MN-Coreを利用した深層学習ワークロード高速化のためのコンパイラの概要及び、ワークロード高速化の実例について紹介します。 MN-Coreの概要とコンパイラの必要性 MN-Core(https://www.preferred.jp/ja/projects/mn-core/)とは深層学習ワークロードに特化したアクセラレータです。深層学習において頻出する畳み込み演算を高速化するために、多数の高効率な行列演算器ユニットを階層的に束ねた構造を持っています。各階層間においては縮約/放送など深層学習ワークロードでよく用いられる集団通信を行う
米Intelのパット・ゲルシンガーCEOは5月31日(台湾時間)、オンラインで開催の「Computex Taipei」の基調講演で、「半導体不足はあと2年は続く可能性がある」と語った。 同氏は、新型コロナウイルスのパンデミックが業界に「爆発的な成長サイクル」をもたらしたことでサプライチェーンに負担がかかっており、「業界全体で措置を講じてはいるが、エコシステムが回復するにはまだ数年かかる可能性がある。ファウンドリの生産能力や部品不足に対処する必要がある」と語った。 同氏はまた、この半導体不足で業界の成長が抑制されているので、「世界経済に燃料補給する必要がある」と語った。 ゲルシンガー氏は3月、新たな戦略「IDM(Integrated Device Manufacturing) 2.0」を打ち出し、米アリゾナ州チャンドラーに2つの新たな半導体工場を建設するために200億ドル(約2兆1726億円
””””内蔵GPUもったいなくないですか?”””” Raspberry Pi4には計算資源としてCPUの他にVideoCoreⅥ(VC6)と呼ばれるGPUが搭載されています。 GPUを汎用計算に活用するGPGPUは一般的にNvidia社の外付けGPUを用いて行われていますが、組み込みボードやノートPCでもGPUは搭載されているものがあり、GPGPUが可能です。(技術的には) 組み込みボードでは計算資源の拡張が難しいのでGPGPU活用は色々と嬉しいことがあると思います。 今回は組み込みボードの代表格であるRaspberry Piの最新機、Pi4でGPGPUに挑戦します。 VC6-GPGPU プログラミング方法 Python上でVideoCore6のアセンブリを記述&実行できる神ライブラリpy-videocore6がIdein社から公開されています。 github.com アセンブラなのでプロ
測定結果 結果として、間違った測定方法だとCPUとGPUを比較すると「1883倍速くなりました!」という主張をしてしまうことになります。ちなみにGPUで1000倍なんて数字が出てきたら確実にどこか間違えています。実際、今回のケースでは本当は「約59倍速くなりました!」というのが正しい結果になります。 torch.cuda.synchronize()とtorch.cuda.Eventを使った場合の違い 今回torch.cuda.synchronize()とtorch.cuda.Event の2種類を紹介しました。場合によっては使い分けをしたほうがいいのでこの二つの違いを説明していきます。 torch.cuda.synchronize() を利用した場合、簡単なので測定しやすいのでいいので、ぱっと測定したい場合はこちらの方法が楽でよいかと思います。ただ、こちらの方法はkernel関数の発行と測
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く