タグ

2020年7月31日のブックマーク (3件)

  • はじめまして。Koalas。

    こんにちは。まーやです。先日de:codeのセッションで、Koalasというものがあるよ!と教えていただきました。とても気になるライブラリだったのでとりあえず触ってみることにしました。・・・のブログです。 Koalas とは Databricks 社が開発中のPython分散処理用DataFrameのライブラリです。 https://koalas.readthedocs.io/en/latest/ もともとPySpark DataFrame というSpark用のDataFrameが存在していますが、このPySpark DataFrameはPandasとは少々書き方が異なります。 似ているところも多いけれどもともとの思想がSQL思考(Spark DataFrame)と表計算思考(Pandas)と異なるため、記法に統一感はありません。 そのため、例えば、 「分析チームがpandasを使った分析

    はじめまして。Koalas。
    hnishi2509
    hnishi2509 2020/07/31
    あとでよむ
  • たった数行でpandasを高速化する2つのライブラリ(pandarallel/swifter) - フリーランチ食べたい

    pandas はデータ解析やデータ加工に非常に便利なPythonライブラリですが、並列化されている処理とされていない処理があり、注意が必要です。例えば pd.Sereis.__add__ のようなAPI(つまり df['a'] + df['b'] のような処理です)は処理が numpy に移譲されているためPythonのGILの影響を受けずに並列化されますが、 padas.DataFrame.apply などのメソッドはPythonのみで実装されているので並列化されません。 処理によってはそこがボトルネックになるケースもあります。今回は「ほぼimportするだけ」で pandas の並列化されていない処理を並列化し高速化できる2つのライブラリを紹介します。同時に2つのライブラリのベンチマークをしてみて性能を確かめました。 pandarallel pandaralell はPythonの m

    たった数行でpandasを高速化する2つのライブラリ(pandarallel/swifter) - フリーランチ食べたい
  • バイオリン図で数値データの分布を可視化する - ぬいぐるみライフ?

    今更ながらデータの分布を比較する図法「バイオリン図(violin plot)」の存在を知りました。 バイオリン図とは ↑のような図です。数値データの分布の可視化や比較に使います。データ分布の描画にはカーネル密度推定が用いられています。 Matplotlibではviolinplot()関数を使うことで描画できます。 matplotlib.pyplot.violinplot( dataset, positions=None, vert=True, widths=0.5, showmeans=False, showextrema=True, showmedians=False, points=100, bw_method=None, *, data=None) バイオリン図と箱ひげ図を比較してみる 似たような目的で用いられる図として「箱ひげ図(box plot)」があります。ここでは試しに数値デ

    バイオリン図で数値データの分布を可視化する - ぬいぐるみライフ?
    hnishi2509
    hnishi2509 2020/07/31
    可視化