タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

データ分析とpandasに関するyukiyan_wのブックマーク (5)

  • Kaggleで使えるpandasテクニック集 - 天色グラフィティ

    PythonでKaggleなどのデータ分析を行う際、pandasでゴリゴリ作業をすることが多いかと思います。 最近知って「めっちゃ便利やん!」ってなったものをまとめておきたいと思います。 全部の関数にドキュメントへのリンクを付けたので参考にしてください。 今回も検証にはTitanicのデータセットを用います。また、文中でのdf.hoge()はpandasのDataFrameのメソッドであることを、pd.hoge()はpandasの関数であることを表します。 df = read_csv('input/train.csv', index_col=0) print(df.shape) df.head() 最低限押さえておきたいやつら まずはここから。 10 Minutes to pandas よく使うやつら。詳しい解説は省略するので、ドキュメントのリンク先を見てください。 関数 内容 リンク d

    Kaggleで使えるpandasテクニック集 - 天色グラフィティ
  • Pandasで特徴量取得する場合に使う操作をまとめてみた - のんびりしているエンジニアの日記

    皆さんこんにちは お元気ですか。私は元気です。 分析は基的にPythonを使って行います。(大体Pandasですが・・・) Pandasを利用すると色々できます。が、ふとどうするんだっけ処理が増えていきました。 自分のメモがてらカテゴリを分けて記録に残したいと思います。 最後のほうは特徴量の作り方集になっています。 Kaggleで実際に使ったことがある処理も数多く掲載しました。 思いついたら随時、追加しようと思います。 準備 ファイル操作 読み込み 書き込み テーブル操作 1行ごとに処理をする。 複数列を取得する。 選択操作 テーブル条件の指定 複数条件の指定 NaNを埋める。 カラム、テーブルの統計情報を取得する。 完全一致の列を発見し、除去する。 日付操作 日付から日などの情報を取得する。 2つ以上のDataFrameの結合操作 内部結合 外部結合 2つの結合処理 集計操作を使った特

    Pandasで特徴量取得する場合に使う操作をまとめてみた - のんびりしているエンジニアの日記
  • 【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ

    こんにちは、データ分析部でバイトをしている子田(id:woody_kawagoe)です。 ニュースパスのログを集計して分析するといった業務を行っています。Gunosyで分析に利用しているツールとしては主にJupyter, Pandas, matplotlibがあります。 この組み合わせは非常に相性が良く、研究でも役立つと思います。 そこで今回のブログではデータ分析に役立つtipsや学んだことをまとめます。 Jupyter Pandas matplotlab データ分析の基的な流れ 参考資料 Jupyter jupyter.org ブラウザ上で利用できる開発環境です。 対話型で、作成したスクリプトと出力結果の対応関係が非常に見やすいです。 スクリプトでprint文をかかなくても最終行に変数おけば表示してくれます。 またgithub上にJupyterで作成できるipynbファイルを置くと他の

    【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ
  • Pandasによる実践データ分析入門 - Gunosyデータ分析ブログ

    こんにちは。データ分析部のオギワラです。最近は「NANIMONO (feat.米津玄師)」をよく聞いています。 今回はPythonデータ分析ライブラリであるPandasについて、実践的なテクニックを「データ処理」「データ集計(Group By)」「時系列処理」の3カテゴリに分けてご紹介していきます。 Pandasに関する基的な内容については、前エントリーで既に紹介されているので、是非こちらもご一読して頂けると幸いです。 data.gunosy.io データ処理 データの取り出し(query) 条件文に基づくデータ処理の適用(where) 各行への関数の適用(apply) データ集計(Group By) カラム毎に異なる集計を適用する(agg) 最大・最小値である行を取り出す(first) 標準化や正規化処理を適用する(transform) 時系列処理 時間の丸め処理(round) 時系

    Pandasによる実践データ分析入門 - Gunosyデータ分析ブログ
  • Pandasを用いた基礎分析 - Platinum Data Blog by BrainPad

    こんにちは、アナリティクスサービス部の辻 陽行です。 今回は、データ分析を行う際のデータの前処理や集計を行う時に非常に役に立つ、PandasというPythonの便利なモジュールを紹介したいと思います。 モジュールを紹介する前に、分析作業の流れとPandasがどのあたりに関与してくるかを先に説明しておきます。 私たちの仕事は、さまざまなデータ分析をお客さまへ提供し、それを付加価値の核としているわけですが、 行き当たりばったりでデータを分析していくのでは、到底価値のある結果を導きだすことはできません。 大抵の場合、以下の手順に沿って分析を進めていくことになります。 データ分析のフロー ヒアリング・仮説形成 (お客さまからの)データ受領 データの前処理・整形 基礎集計 仮説の修正・分析方針の再検討 課題に応じて必要な分析手法を選択 詳細分析・モデリング 報告書作成 報告 施策への落とし込み・次回

    Pandasを用いた基礎分析 - Platinum Data Blog by BrainPad
  • 1