タグ

ブックマーク / www.salesanalytics.co.jp (3)

  • Pandasを150倍速く動かす1行コード%load_ext cudf.pandas

    Pandasは、データ分析Pythonを使うデータサイエンティストにとって、最もよく使われているツールの1つです。 GPU データフレームのライブラリーの1つに、pandasライクなRAPIDS cuDF(cuda based Dataframes)というものがあります。 v23.10から、cuDFはpandasアクセラレータモードを提供するようになりました。 このことによって、%load_ext cudf.pandasをjupyterノートブックに追加するだけで、Pandasを150倍速く動かすことができます。 GPUが利用可能な場合、データ操作を高速化します。GPUが利用できない場合、CPUにフォールバックし高速化の程度が弱くなります。 RAPIDSのインストール 以下から、インストールするためのコードを取得できます。 今現在(2023年11月16日現在)、pipでインストールすると

    Pandasを150倍速く動かす1行コード%load_ext cudf.pandas
  • Rで推定するパレート分布

    「第222話|パレート指数による売上分析」でパレート分布についてお話ししました。 ビジネスはパレートな世界の住人でしょう。 例えば…… チェーン店であれば、極端に売上の大きい店舗はあります 営業パーソンであれば、極端に受注額の大きい人はいます 顧客であれば、極端に取引額の大きい得意先はあります 商品であれば、極端に利益額の大きい商品はあります 日販であれば、極端に売上高の高い日はあります ……などなど。 どのようにして、得られたデータからパレート分布を推定するのかを説明します。 3つのパッケージ パレート分布に関するパッケージは、Rには色々あります。 今回は、パッケージ「Newdistns」を利用します。 パレート分布といっても色々と進化し、他の確率分布と一緒くた(同じ枠組みでくくられ)になっています。 パッケージ「Newdistns」では、色々なパレート分布(一般化パレート分布や指数化パ

    Rで推定するパレート分布
  • Jupyter NotebookをWebアプリ化するPython Mercury

    Pythonデータ分析するとき、Jupyter Notebookを使う人は多いことでしょう。 試行錯誤の結果、ほぼ分析の流れが定型化した場合、必要の都度、Jupyter Notebook に記載されたPythonコードを頭から単に実行するケースも、まぁまぁあります。 定型化された分析業務を、データサイエンティストなどが実施する必要はありません。 そのため、Jupyter Notebookのファイルを共有し、必要な人(データサイエンティストでない人)が必要なときに、定型化された分析業務を実施する、ということも実務の世界では起こっています。 必要な人(データサイエンティストでない人)にとっての興味は分析結果であって、Pythonコードではありません。 PythonのライブラリーMercuryを使うことで、Jupyter NotebookをWebアプリ化し、グラフなどの出力のみを表示することが

    Jupyter NotebookをWebアプリ化するPython Mercury
  • 1