[B! programming][Performance] uokadaのブックマーク

uokada id:uokada

programmingとPerformanceに関するuokadaのブックマーク (10)

Pythonコードのプロファイリング - shkh's blog
普段、Pythonのコードは何となく速かろうという、言ってみれば勘で書いているのだけど、その勘とやらは往々にしてウンコードを生むものである。そこで、プロファイラを使っていきたいと思う。使えそうなツールそういうわけで、いくつか使えそうなツールをリストアップした。経過時間のプロファイラツール名メモ profile ビルトイン, ピュアPythonの決定論的プロファイラ cProfile ビルトイン, C拡張の決定論的プロファイラ line_profiler 行単位の決定論的プロファイラ Plop 統計的プロファイラ, Dropboxの人が作ってる statprof 統計的プロファイラ, 開発停止？ yep 拡張モジュール用の統計的プロファイラ, バックエンドにgoogle-perftools メモリのプロファイラツール名メモ memory_profiler 行単位でメモリ消費量の
uokada 2018/09/11
python

profiler

performance

programming
リンク
数独の高速化 - Cybozu Inside Out | サイボウズエンジニアのブログ
「サイボウズ・アドベントカレンダー」の4日目です（これまでの記事一覧）。どうやら三日坊主は免れたようです（笑）。 (0) はじめにこんにちは。サイボウズ・ラボの川合秀実です。私は主にサイボウズ製品の高速化のお手伝いをしています。しかし先日、製品とは関係ないものを高速化したので、今日はそれを発表します。サイボウズには社内勉強会がいくつかあって、その中にはC++の勉強会もあります。私はサイボウズの勉強会に参加するのが好きなので、このC++の勉強会に参加してみました。この勉強会では、「数独」というパズルを解くプログラムをC++で書いてみよう、というのが最初のテーマでした。参加者各自がプログラムを書き、翌週にお互いにレビューしあうということが行われました。ここで私はやらかしてしまいました。ええ、そうです、高速化してしまったのです！言うまでもないですが、誰もこんなことは望んでいません。そもそ
uokada 2012/12/06
algorithm

performance

programming
リンク
みずほ情報総研： GPUコンピューティングと並列計算
今、GPUがホットである。1チップで1TFlopsを超える性能は驚異的であり、HPCに限らず広く注目を集めるのも肯ける。しかし、GPUを使いこなすためには並列計算に関するより深い理解が求められる。 GPUコンピューティングと並列計算(PDF/527KB) “フリーランチは終わった。”これはGeForceの父と呼ばれるデヴィッド・カーク博士の言葉である。コンピューターの性能向上は常に日進月歩という枕詞が冠せられてきたが、ここ数年その中身が大きく変ってきた。従来は半導体の微細化→CPUの高クロック化という流れで演算速度が向上してきたが、リーク電流の増大に伴いクロックの向上は頭打ちになってきた（図表1）。一方、微細化はいまだムーアの法則に従って順調に進んでおり、CPUベンダーは性能向上の手段を高クロック化からマルチコア／メニーコア化による並列計算へと大きく舵を切った。先のカーク博士の言葉は、これ
uokada 2012/11/12
cpu

gpu

performance

programming
リンク
「バックエンドの経験はなかった」Instagram創業者は、どうやってシステムをスケールさせてきたか
昨日のPinterestの記事「Pinterestの急成長を支えてきたアーキテクチャとは？ Pythonで開発しAmazonクラウドで運用」に続いて、やはり写真を中心としたサービスで急成長してきたInstagramのスケーラビリティについて、まとめてみました。 InstagramもPinterestと同様に、基本はAmazonクラウド上でPythonとフレームワークのDjangoを使ったシステムを構築しています。興味深いのは、創業者の二人ともバックエンドの経験がないなかで試行錯誤をしてシステムをスケールさせてきた点です。 Instagramは先月、Facebookに買収されると発表されています。この先、Instagramのシステムはどう変わっていくのでしょうか。 Instagramのシステム構成約半年前、昨年12月にInstagramのブログに投稿された記事「What Powers In
uokada 2012/06/23
Instagram

programming

amazon

performance

python
リンク
Pythonの内包表記はなぜ速い？ : DSAS開発者の部屋
「エキスパートPythonプログラミング」の発売が、Amazonや一部の書店で始まりました。エキスパートPythonプログラミング著者：Tarek Ziade 販売元：アスキー・メディアワークス発売日：2010-05-28 クチコミを見る今回は、「エキスパートPythonプログラミング」の2章から、リスト内包表記について補足します。本書で、リスト内方表記が速い理由について、次のような訳注を書きました。訳注：リストに要素を append() する場合、インタプリタは「リストから append 属性を取り出してそれを関数として呼び出す」という処理をしなければなりません。それに対して、リスト内包表記を使うと、インタプリタに直接「リストに要素を追加する」という処理をさせることができます。インタプリタが解釈する命令数が減る、属性の取り出しが不要になる、関数呼び出しが不要になる、という3
uokada 2012/06/19
python

programming

algorithm

Performance

hacks
リンク
全プログラマーが知るべきレイテンシー数
Latency numbers every programmer should know — Gist L1キャッシュ参照 0.5ナノ秒分岐予測失敗 5ナノ秒 L2キャッシュ参照 7ナノ秒 Mutexのロックとアンロック 25ナノ秒メインメモリー参照 100ナノ秒 Zippy[Snappy]による1KBの圧縮 3,000ナノ秒 1Gbpsネットワーク越しに2KBを送信 20,000ナノ秒メモリーから連続した1MBの領域の読み出し 250,000ナノ秒同一データセンター内におけるラウンドトリップ 500,000ナノ秒ディスクシーク 10,000,000ナノ秒ディスクから連続した1MBの領域の読み出し 20,000,000ナノ秒パケットを、カリフォルニア→オランダ→カリフォルニアと送る 150,000,000ナノ秒 Jeff Dean著(http://research.googl
uokada 2012/05/31
programming

performance

latency
リンク
プログラミング言語の速度とアプリケーションの速度がいかに関係ないかがわかるグラフ - kなんとかの日記
まずは次の表をご覧あれ。これはプログラミング言語のベンチマークとして有名な Computer Language Benchmarks Game のベンチマーク結果。上にいくほど高速で、下に行くほど遅い言語になる。これを見れば、最速な言語は C/C++ であり、Java や Haskell や OCaml といった静的な言語は軒並み上位に登場する。これに対し、Ruby や Python や PHP といったスクリプトは全部下のほう (つまり遅い)。その速度差は非常に大きく、このベンチマークで見ると Python3 や Ruby1.9 は C/C++ の約50倍から60倍遅く、Perl は約90倍、PHP にいたっては約130倍遅いことになる。 (ちなみに JIT つきの Lua が驚異的に高速なのが目をひく。この結果が本当だとしたら、言語の速度に大きく関係するのは動的か静的かではなく、どれ
uokada 2012/05/29
Programming

performance
リンク
CPU とキャッシュのはなし - graphics.hatenablog.com
別にグラフィックスに限ったことじゃないし、そもそも論文とか全然関係ないけど。GPU 周りでもたまに話題になるし、自分でもたまにわけわからんくなるから整理しとく。メインメモリは遅い CPU からメインメモリにデータを読みに行く場合、これはとにかく遅い。例えばレジスタにあるデータを読みに行く場合と比べると、だいたい数倍から数100倍の遅さ。ヤバいからなんとかしよう。もっと早くアクセスできる場所にデータおいとこう。キャッシュライン CPU がメインメモリからデータを読み出すとき、必ず小さなメモリチャンクをキャッシュ上にロードする。ロード単位はプロセッサによるけど、だいたい 8 ～ 512 バイト。このロード単位をキャッシュラインと呼ぶ。アクセス対象のデータが既にキャッシュに載ってる場合は、メインメモリじゃなくてキャッシュを読みに行く。ない場合はメインメモリにアクセスするけど、そのデータはも
uokada 2012/05/13
cache

cpu

hardware

programming

performance

latency
リンク
Kazuho@Cybozu Labs: 「サーバ書くなら epoll 使うべき」は、今でも正しいのか
多数のTCP接続をハンドリングするサーバを書くなら、1コネクション1スレッドのモデルではなく、epollやkqueueのようなイベント駆動型のI/O多重化を行うべきだ、と言われます。だが、そのような主張は、「C10K問題」が書かれた2002年から7年経過した今でも有効なのでしょうか？　echoサーバを書いて、ベンチマークを取ってみることにしました。ふたつのグラフは、いずれも接続数とスループットの関係を表しています。最初のグラフは、全接続がアクティブに通信した場合、あとのグラフは、全接続のうち小数のコネクションが順次アクティブになっていく、というモデルです。これらのグラフから、以下ようなことが読み取れます。 epoll も per-thread モデルも、良くスケールする epoll は、ワークセットが小さい場合に (最大50%) per-thread モデルよりも高速少なくとも、1コネ
uokada 2012/03/15
epoll

thread

programming

linux

performance
リンク
memcachedバイナリプロトコルは同期プロトコルを禁止するべき - Blog by Sadayuki Furuhashi
現状のmemcachedのバイナリプロトコルのクライアント（=libmemcached）は、リクエストの順番通りにレスポンスが返ってくることを期待しており、これはmemcachedバイナリプロトコルを「汎用的なkey-valueベースの分散ストレージのためのプロトコル」として考えると、ひどい実装である。そのような実装は最適化の余地を大幅に制限してしまい、性能とスケーラビリティが悪化する。memcachedの仕様書は、そのようなクライアントの実装はバグであると明示するべきである。現状のmemcachedクライアントの実装の問題点と、その解決策について述べる。同期プロトコルと非同期プロトコルネットワークプロトコルは以下の2つの種類に分けられる：同期プロトコルリクエストの順番通りにレスポンスを返す（リクエストの順番とレスポンスの順番が同期している）非同期プロトコルリクエストした順
uokada 2011/10/06
memcached

programming

protocol

performance
リンク
1