タグ

Pythonとdaskに関するxiangzeのブックマーク (2)

  • 時系列データから大量の特徴量を生成するパッケージ「tsfresh」の使い方|CO-WRITE

    こんにちは!突然ですが、皆さんは下のような二種類の時系列データを判別できるような特徴量を抜き出したいときに何を考えますか?そしてどうやって特徴量を抽出しますか? 私はパッと見て次の手法を使えば特性が取り出せると思いました。 ピークの数 → k近傍法 ノイズの大きさ → 分散統計量 時系列方向で周期成分の大きさ → Wavelet変換 しかし、当然これだけでは十分な数の特性を網羅できていないでしょうし、適切な特性を抜き出すためにパラメータチューニングを行う必要があります(例えば、Wavelet変換であれば適切な基底関数を選ぶ必要があります)。 このように時系列データの特徴量エンジニアリングは調べることが無限にあり、どの特徴量を算出するかを考えているだけで日が暮れてしまいます。また、抜き出す特徴量が決まったとしてもモノによっては計算が複雑で実装に時間がかかってしまう場合もあります。 そんなとき

    時系列データから大量の特徴量を生成するパッケージ「tsfresh」の使い方|CO-WRITE
  • Python Dask で Out-Of-Core / 並列 LU 分解 - StatsFragments

    はじめに 正方行列 を となる下三角行列 と 上三角行列 に分解することを LU 分解という。LU 分解ができると連立方程式の解や逆行列が 前進/後退代入でかんたんに求められてうれしい。 Dask を使って LU 分解を Out-Of-Core / 並列でやりたい。 LU 分解の並列化にはいくつかやり方があるようで、東大講義 スパコンプログラミング(1)、スパコンプログラミング(I) の 第10回 LU分解法 にまとまっている。この講義、ガイダンス資料の単位取得状況を見るとかなり楽しそうな感じだ。 ここでは、Dask での実装がかんたんそうなブロック形式ガウス法 (資料 P33-) をやりたい。 ブロック形式ガウス法 ブロック形式ガウス法では入力となる行列をいくつかのブロックに区切り、ブロックごとに処理を行う。具体的には、左上の対角ブロックからはじめて、以下の順番で処理していく。 対角ブロ

    Python Dask で Out-Of-Core / 並列 LU 分解 - StatsFragments
  • 1