タグ

データとpandasに関するdaabtkのブックマーク (2)

  • だから僕はpandasを辞めた【データサイエンス100本ノック(構造化データ加工編)篇 #1】 - Qiita

    データサイエンス100ノック(構造化データ加工編)のPythonの問題を解いていきます。この問題群は、模範解答ではpandasを使ってデータ加工を行っていますが、私達は勉強がてらにNumPyの構造化配列を用いて処理していきます。 次回記事(#2) はじめに Pythonでデータサイエンス的なことをする人の多くはpandas大好き人間かもしれませんが、実はpandasを使わなくても、NumPyで同じことができます。そしてNumPyの方がたいてい高速です。 pandas大好き人間だった僕もNumPyの操作には依然として慣れていないので、今回この『データサイエンス100ノック』をNumPyで操作することでpandasからの卒業を試みて行きたいと思います。 今回は8問目までをやっていきます。 今回使うのはreceipt.csvだけみたいです。初期データは以下のようにして読み込みました(データ型

    だから僕はpandasを辞めた【データサイエンス100本ノック(構造化データ加工編)篇 #1】 - Qiita
  • データ分析で頻出のPandas基本操作 - Qiita

    はじめに 機械学習や深層学習が人気の昨今ですが、それらのモデルの精度に最もクリティカルに影響するのはインプットするデータの質です。データの質は、データを適切に把握し、不要なデータを取り除いたり、必要なデータを精査する前処理を行うことで高めることができます。 頁では、データ処理の基ツールとしてPandasの使い方を紹介します。Pandasには便利な機能がたくさんありますが、特に分析業務で頻出のPandas関数・メソッドを重点的に取り上げました。 Pandasに便利なメソッドがたくさんあることは知っている、でもワイが知りたいのは分析に最低限必要なやつだけなんや…!、という人のためのPandasマニュアルです。 また、単に機能を説明するだけでは実際の処理動作がわかりにくいため、ここではSIGNATE(旧DeepAnalytics)のお弁当の需要予想を行うコンペのデータを拝借し、このデータに対

    データ分析で頻出のPandas基本操作 - Qiita
  • 1