タグ

ブックマーク / zenn.dev/argi_berri (1)

  • Pandas の代わりに Polars でデータ加工する豆知識

    注意 かゆいところに手が届くようにするためのメモ。 .select / .filter 関連 列の選択に関する事柄。 pl.col() Polars における「列」を表現するクラスを生成できる。pl.col() すると割と好き放題でき、列に対して四則演算したり文字列扱いして加工処理を回したりできる。 また、str な列については pl.col().str すると列を str な値として扱え、contains() とか ends_with() とかいかにも便利そうな関数を使えるようになる。 以下は id 列が偶数かつ email 列に .com を含む filter 処理を回す例である。 df = ( pl.read_csv(f"{dirname(__file__)}/vendor/MOCK_DATA.csv") .filter(pl.col("id") % 2 == 0) .filter(

    Pandas の代わりに Polars でデータ加工する豆知識
    sh19910711
    sh19910711 2024/06/13
    "LazyFrame: pl.scan_csv() は LazyFrame.collect() が実行されるまで実際の読み込みを待機 / 後続のクエリの指定を待ったうえで CSV を読み込めるため、読み込み処理のメモリ効率・処理効率の向上が見込める"
  • 1