タグ

pandasとdplyrに関するAobeiのブックマーク (9)

  • pandas関連記事まとめ | note.nkmk.me

    環境情報・設定 pandasのバージョンを確認(pd.show_versions) オプション設定を確認・変更する方法 表示設定変更(小数点以下桁数、有効数字、最大行数・列数など) DataFrame, Seriesの基 pandas.DataFrameの構造とその作成方法 行数、列数、全要素数(サイズ)を取得 pandasのデータ型dtype一覧とastypeによる変換(キャスト) pandas.DataFrameとSeriesを相互に変換 pandas.DataFrameにおけるビューとコピー ファイル入出力 CSV csv/tsvファイル読み込み(read_csv, read_table) csvファイルの書き出し・追記(to_csvExcel(xls, xlsx) Excelファイル(xlsx, xls)の読み込み(read_excelExcelファイル(xlsx, xl

    pandas関連記事まとめ | note.nkmk.me
    Aobei
    Aobei 2023/12/04
    データ操作系の逆引きマニュアル
  • Python初学者のためのPolars100本ノック - Qiita

    Information 2024/1/8: pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 はじめに どうもこんにちは、kunishouです。 この度、PythonライブラリであるPolarsを効率的に学ぶためのコンテンツとして 「Python初学者のためのPolars100ノック」 を作成したので公開します。こちらは2020年9月に公開した「Python初学者のためのpandas100ノック」の問題内容をPolarsのメソッドに合わせて修正、再編したものになります。コンテン

    Python初学者のためのPolars100本ノック - Qiita
  • 超高速…だけじゃない!Pandasに代えてPolarsを使いたい理由 - Qiita

    PolarsというPandasを100倍くらい高性能にしたライブラリがとても良いので布教します1。PolarsRustベースのDataFrameライブラリですが、記事ではPythonでのそれについて語ります。 ちなみにpolarsは白熊の意です。そりゃあまあ、白熊と大熊比べたら白熊のほうが速いし強いよねってことです2。 何がいいの? 推しポイントは3つあります 高速! お手軽! 書きやすい! 1. 高速 画像はTPCHのBenchmark(紫がPolars)3。 日語でも色々記事があるので割愛しますが、RustやApach Arrowなどにお世話になっており、非常に速いです。MemoryErrorに悩まされる問題も解決されます。開発者のRitchieがしゃれおつなツイートをしてるので、そちらも参考にどうぞ ↓ 4。 抄訳: (ひとつ目)Pandasは黄色くした部分でDataFram

    超高速…だけじゃない!Pandasに代えてPolarsを使いたい理由 - Qiita
  • 時系列データを前処理する際のPython逆引きメモ - EurekaMoments

    機械学習のための「前処理」入門 作者:足立悠リックテレコムAmazon 目的 データ分析仕事をする中で最も扱う機会が多いのが 時系列データだと思います。その中で欠損値を扱ったり、 統計を取ったり、特徴量を作り出したりするのですが、 毎回やり方を忘れてググっているので、上記の書籍を読んで こういった前処理の方法をいつでも確認できるように メモしておこうと思います。 目次 目的 目次 日時のデータをdatetime型に変換する 最初の日時からの経過時間を計算する 各データの統計量を計算する 欠損値の確認と補完 経過時間の単位を変換する データフレーム結合する 基準日時からの経過時間を計算する 重複した行を削除する 特定のデータ列をインデックスにする 部分的時系列を抽出して統計量を計算する データフレームの各列をリストにして結合する 不均衡データから教師データを作成する データの読み込みと可視

    時系列データを前処理する際のPython逆引きメモ - EurekaMoments
  • dplyr-style Data Manipulation with Pipes in Python

    Piping Let’s say you want to perform n discrete transformation operations on your dataset before outputting the final result. The most common way is to perform the operations step by step and store the result of each step in a variable. The variable holding the intermediate result is then used in the next step of the transformation pipeline. Let’s take a look at an abstract example. # 'original_da

    dplyr-style Data Manipulation with Pipes in Python
    Aobei
    Aobei 2021/04/24
    dplyr風にハンドリングする。filterでなくmask
  • RユーザーのためのPython対応表 [tidyr, ggplot2] - Qiita

    概要 Rユーザーが、Pythonを使う際に、 「Rのアレ、Pythonではどうやるんだっけ?」 というのをまとめてみた感じです。 Pythonユーザーで、「Pythonのアレ、Rでどうやるんだっけ?」って人にも役立つかもしれません。 (dplyr, stringrの対応はこちらも参考にしてみてください) Rユーザー向け Pythonデータ処理入門 ライブラリ tidyr => pandas ggplot2 => seaborn データはirisのデータセットを利用。(R標準のデータセット、列名を一部変更) Sepal_Length Sepal_Width Petal_Length Petal_Width Species

    RユーザーのためのPython対応表 [tidyr, ggplot2] - Qiita
  • Rユーザー向け Pythonデータ処理入門 - Qiita

    はじめに こんな人向け ・Rは分かるけど, Pythonは分からないという人向け. 背景 ・R初心者(初稿投稿時: R歴7ヶ月). ・最近Pythonにも手を出してみるも, 単純なデータ処理すら書き方がRと異なるため難しい. ・RとPythonのデータ処理の対応表を見たい. ・いくつか参考サイトあるが, 自分が必要とするものが完全に揃っているわけではない. =>R vs Python:データ解析を比較 ・じゃあ自分用メモを作っちゃおう. 参考にしたサイト 【PythonPython Pandasでのデータ操作の初歩まとめ − 前半:データ作成&操作編 ゆるふわPandasチートシート 『Pythonによるデータ分析入門』 Python文字列操作マスター pandasの使い方(merge、join、concat編) 【R】 dplyrを使いこなす!基礎編 stringr — Rの文字列を

    Rユーザー向け Pythonデータ処理入門 - Qiita
  • Jupyter Notebook Viewer

    This notebook compares pandas and dplyr. The comparison is just on syntax (verbage), not performance. Whether you're an R user looking to switch to pandas (or the other way around), I hope this guide will help ease the transition. We'll work through the introductory dplyr vignette to analyze some flight data. I'm working on a better layout to show the two packages side by side. But for now I'm jus

  • dplyr のアレを Pandas でやる - Qiita

    Pandas と dplyr のより網羅的な対比は、既に記事が出ています。 私が参考にしたものをこの記事の末尾で紹介していますので、詳しくはそちらをご覧ください 。 前置き|テーブルのキーの扱い方の違い Pandas を使い始める前に理解すべきこととして、dplyr と Pandas ではテーブルのキーの扱い方に大きな違いがあります。この違いを認識していなかった私はかなり苦戦しました…… 以下の2点を理解して (覚悟して?) おくと、学習コストが多少減るのではないでしょうか。 Pandas ではテーブルのキーが Index という別オブジェクトで管理されていること Pandas ではキーや列名に階層構造を持たせられること dplyr におけるキーの扱い R のデータフレームにはテーブルのキーを表す方法として row names という仕組みが用意されています。しかし、dplyr (が利用し

    dplyr のアレを Pandas でやる - Qiita
  • 1