ynhlのブックマーク - はてなブックマーク

Python Dask で Out-Of-Core / 並列 LU 分解 - StatsFragments

はじめに正方行列をとなる下三角行列と上三角行列に分解することを LU 分解という。LU 分解ができると連立方程式の解や逆行列が前進/後退代入でかんたんに求められてうれしい。 Dask を使って LU 分解を Out-Of-Core / 並列でやりたい。 LU 分解の並列化にはいくつかやり方があるようで、東大講義スパコンプログラミング(1)、スパコンプログラミング(Ｉ) の第10回 LU分解法にまとまっている。この講義、ガイダンス資料の単位取得状況を見るとかなり楽しそうな感じだ。ここでは、Dask での実装がかんたんそうなブロック形式ガウス法 (資料 P33-) をやりたい。ブロック形式ガウス法ブロック形式ガウス法では入力となる行列をいくつかのブロックに区切り、ブロックごとに処理を行う。具体的には、左上の対角ブロックからはじめて、以下の順番で処理していく。対角ブロ

ynhl 2016/01/24

アルゴリズムのstrong/weak scalingについてもコメントしてほしい

リンク

Python pandas プロット機能を使いこなす - StatsFragments

pandas は可視化のための API を提供しており、折れ線グラフ、棒グラフといった基本的なプロットを簡易な API で利用することができる。一般的な使い方は公式ドキュメントに記載がある。 Visualization — pandas 0.17.1 documentation これらの機能は matplotlib に対する薄い wrapper によって提供されている。ここでは pandas 側で一処理を加えることによって、ドキュメントに記載されているプロットより少し凝った出力を得る方法を書きたい。補足サンプルデータに対する見せ方として不適切なものがあるが、プロットの例ということでご容赦ください。パッケージのインポート import matplotlib.pyplot as plt plt.style.use('ggplot') import matplotlib as mpl m

ynhl 2015/11/16

最後の例は知らんかった

リンク

Python 次世代の多次元配列パッケージ群 - StatsFragments

このところ、たびたび NumPy 後継が...とか並列処理が...という話を聞くので、この秋注目の多次元配列パッケージをまとめたい。バックエンド系 NumPy のように数値計算処理を自前で実装しているパッケージ。 DyND Blaze プロジェクトのひとつ。C++ 実装 + Python バインディング。GitHub にいくつか Example があがっているが、複合型やカテゴリカル型、GroupBy 操作がサポートされていて熱い。ラベルデータも NumPy より簡単に実装できそうだ。 speakerdeck.com 並列分散系自身では直接数値計算処理を行わず、バックエンド ( 主に NumPy )を利用して並列/分散処理を行うパッケージ。1 物理PC/複数コアでの並列計算を主用途とし、NumPy, pandas では少し苦しいが PySpark などを使うほどじゃない...とい

ynhl 2015/09/23

リンク

NumPy でつくる俺々データ構造 - StatsFragments

はじめに Python での数値計算の基盤をなす NumPy 、直感的なスライスやブロードキャスト、関数のベクトル適用など大変便利だ。 import numpy as np np.__version__ # '1.9.2' np.array([1, 2, 3]) # array([1, 2, 3]) np.array([1, 2, 3])[:2] # array([1, 2]) np.array([1, 2, 3]) + 1 # array([2, 3, 4]) が、用途によっては NumPy 標準ではその機能を実現できない場合がある。例えば、配列とメタデータをひとつのクラスで扱いたい配列への入力や型を制約/検証したい自作クラスを NumPy の Universal Functions (ufunc) に対応させたい新しい型 ( dtype ) を作りたいこういったとき、NumP

ynhl 2015/09/23

リンク

Python でパイプ演算子を使いたい - StatsFragments

ネタ記事です。/ This is a joke post which makes no practical sense. はじめに Python pandas では主要な操作を以下のようにメソッドチェインの形で書くことができる。 # Python (pandas) df.assign(x=df['y'] + df['z']).groupby('x').sum() pandas v0.16.2 で DataFrame と Series に .pipe というメソッドが追加され、このチェインを外部の関数/メソッドに対して連結できるようになった。利用例は以下のリンクを。 statsmodels を利用する例 seaborn を利用する例補足 matplotlib でも v1.5.0 でラベルデータ対応が追加され、各関数が .pipe から利用できるようになる予定。このメソッドチェインによ

ynhl 2015/09/21

リンク

Python XGBoost の変数重要度プロット / 可視化の実装 - StatsFragments

Gradient Boosting Decision Tree の C++ 実装 & 各言語のバインディングである XGBoost、かなり強いらしいという話は伺っていたのだが自分で使ったことはなかった。こちらの記事で Python 版の使い方が記載されていたので試してみた。 puyokw.hatena blog.com その際、Python でのプロット / 可視化の実装がなかったためプルリクを出した。無事マージ & リリースされたのでその使い方を書きたい。まずはデータを準備し学習を行う。 import numpy as np import xgboost as xgb from sklearn import datasets import matplotlib.pyplot as plt plt.style.use('ggplot') xgb.__version__ # '0.4' ir

ynhl 2015/08/27

リンク

はてなブックマーク

タグ

ブックマーク / sinhrks.hatenablog.com (6)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス