1. High Performance Python Computing for Data Science ~データ分析でPythonを高速化したいときに見る何か~ 株式会社ブレインパッド 佐藤 貴海 @tkm2261 PyData.Tokyo Meetup #4 2015年4月3日PyData.Tokyo Meetup #4 1
scikit-learn(sklearn)の日本語の入門記事があんまりないなーと思って書きました。 どちらかっていうとよく使う機能の紹介的な感じです。 英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは? scikit-learnはオープンソースの機械学習ライブラリで、分類や回帰、クラスタリングなどの機能が実装されています。 また様々な評価尺度やクロスバリデーション、パラメータのグリッドサーチなどの痒いところに手が届く機能もあります。 インストール scikit-learnの他にもnumpyとかscipyとかが必要です。 Windows 64 bit版の人は以下のURLに色々なインストーラーがおいてあるのでおすすめ Python Extension Packages for Windows - Christoph Gohlke その他の人は以下のURLを見て
いろいろと必要があってCythonとNumpyを使うことになりましたが、少し嵌ったのでメモ 数値計算にはPython+Numpyを利用していましたが、(禁忌とされる)データに対して直接forループを回さなければならないような状況に陥ったので、仕方なくCythonを導入。 CythonからNumpy.arrayにアクセスしたい時は、ナイーブな方法で行うとオーバーヘッドが大きい。 そのため、配列へのアクセスを高速に行うための仕組みがCythonにあります。 Working with Numpy http://docs.cython.org/src/tutorial/numpy.html#efficient-indexing このあたりの公式文書を参照のこと。Pythonのオブジェクトとして扱うのではなく、きちんと型と次元を指定してやって、もっとC寄りの配列を直接いじる感じ。 さて、この機能を利
自然言語処理の技法の1つに、潜在的意味解析(LSA)というものがある。 単語文書行列Aがあった場合、特異値分解(SVD)により A=UΣV に分解し、特異値を大きいほうからk個使って Ak=UkΣkVk のように階数の低減を行うことで、階数kのAへの近似を最小誤差で得ることができる。 つまり特異値分解の計算さえできてしまえばLSAもすぐできるわけだが、 pythonの数値解析モジュールScipyにかかれば特異値分解もあっという間である。 まずは特異値分解まで↓ from numpy import * from scipy import linalg A = matrix([ [5, 8, 9, -4, 2, 4], [2, -4, 9, 4, 3, 3], [-3, 4, 8, 0, 5, 6], [-2, 5, 4, 7, 0, 2] ]) u, sigma, v = linalg.sv
Python、特にSciPyは日本語でのドキュメントが少ないので、メモがてら記述。 単語文書行列などでは大規模疎行列になることがよくある。 そこで格納方法の工夫などを行っていく必要がある。 最もスタンダードな方法としては圧縮行格納方式などがある。 基本的に疎行列の要素は0なので、非零の要素の位置だけ覚えておこうという発想。 もちろん(?)SciPyには疎行列を扱うモジュールsparseが用意されている。 lil_matrixにて疎行列を生成。引数には行列の大きさ(m, n)を指定。 from numpy import * from scipy import io, sparse A = sparse.lil_matrix((3, 3)) # 疎行列生成 A[0,1] = 3 A[1,0] = 2 A[2,2] = 5 【Aの型、中身】 3×3行列であること、および非零の位置のみ格納されてい
10/15 に IBM さんの渋谷オフィスにて開催された 第2回 Tokyo.SciPy にのこのこ参加してきました。主催の @sla さんはじめ、参加者・発表者各位おつかれさまでした&ありがとうございました。 せっかく行くならなんか発表したいよね、ということで「数式を numpy に落としこむコツ 〜機械学習を題材に〜」なんてタイトルで、数式(あるいは数式入りのアルゴリズム)を実装するときに、どういう点に注目すれば易しくコードを書けるか、についてちらちら語ってみた。 こちらがその資料。 数式をnumpyに落としこむコツ View more presentations from Shuyo Nakatani 例えば、機械学習の(多クラス)ロジスティック回帰という技術では、次のような数式が登場する。 (PRML (4.109) 式) これを一目見てすらすらとコードが書けるなら苦労はないが、慣
Numpy/Scipyの勉強会であるTokyo.SciPyに参加しました.場所は渋谷マークシティのIBMイノベーションセンターです.Tokyo.SciPy #1 - [PARTAKE]Numpy/Scipyという実装の勉強会でありながら,本職の研究者の方も多く来ていて理論的な背景のしっかりした発表が多く,勉強になりました.昨日のPyConでも会った人や,TokyoRのほうに出ていた方もいて面白かったです.また運営がしっかりしていて見習いたいところ. NumPy/SciPy体験セッション by @lucidfrontier45資料・コード:lucidfrontier45/TokyoScipy - GitHub NumPy, SciPyの機能紹介 Pythonで数値計算 数値計算 = ループ ループ内部はCで実装してアルゴリズムはPythonで Numpy: Cで実装されたndarrayクラス
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く