記事へのコメント21

    • 注目コメント
    • 新着コメント
    kiririmode
    メモリに載らない量のデータの基本統計量の算出

    その他
    Windymelt
    parquet形式だ。いいよね。pyarrowはdaskってやつから呼び出す感じなんだろうか。 / 自分だったらPython使わずに直接Sparkとかで処理しちゃうだろうな

    その他
    cartman0
    逐次読み込みなかったっけ?

    その他
    hiromi_ayase
    ファイルI/Oはストリーム処理が基本だし何が難しいんだろう・・・?と思ったらpandas限定の問題だった

    その他
    megadrive
    kaggle

    その他
    prjpn
    エンジニアリング力が試される環境

    その他
    coolworld
    趣味として楽しむのならいいけど、業務ならRDBにつっこむな。

    その他
    havanap
    Rでよしなにやってくれなかったっけ

    その他
    Ez-style
    Ez-style 業務で作業するならBQに突っ込めでFAとして、CSVの基本統計量を計算するだけなら grep と awk という手段が(老人会脳 / 身も蓋もないことをいえば、アタリをみたいだけならランダムサンプリングすればよくね。

    2023/06/06 リンク

    その他
    strawberryhunter
    サーバーなら2GBでも珍しくない。1回読むだけなら1行ずつ読む、だけど要件次第。ストレージに余裕がないとSQLiteやParquetへの変換もできないし。

    その他
    kotaponx
    使い慣れたsqlite3使うことが多いけど、やっぱシングルスレッドはきついんよね……

    その他
    circled
    多分この手の処理をする人の給料の1日分でメモリ64GB程度は余裕で買えそうだから、普通にPCにメモリ足せば良いのでは?しかも仕事なら、この手の処理は何度もやって来ますでしょう?

    その他
    ya--mada
    sqliteだとツライのかな?

    その他
    kisiritooru
    パソコンでやっているのに、おぼろげながら浮かんできたんです。人力と言う言葉が。

    その他
    knok
    daskかなと思ったらdaskだった

    その他
    ytn
    地獄の中に楽しみを見つけるが如き

    その他
    perl-o-pal
    swapon…

    その他
    nakag0711
    nakag0711 RDB使わない場合はDask+Parquetと

    2023/06/06 リンク

    その他
    Fluss_kawa
    Fluss_kawa 逐次読み込みで基本統計量計算するアルゴリズムなかったっけ?

    2023/06/06 リンク

    その他
    y-kawaz
    あとで読む

    その他
    nna774
    “カラムナフォーマット”

    その他

    注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

    アプリのスクリーンショット
    いまの話題をアプリでチェック!
    • バナー広告なし
    • ミュート機能あり
    • ダークモード搭載
    アプリをダウンロード

    関連記事

    1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita

    はじめに この記事は,Kaggle Advent Calendar 2022第6日目の記事になります。 記事では、 32GB超のCS...

    ブックマークしたユーザー

    • u_engine2025/03/06 u_engine
    • katsukiniwa2024/07/07 katsukiniwa
    • techtech05212024/05/29 techtech0521
    • akiyoko2024/03/02 akiyoko
    • hootoo32023/07/02 hootoo3
    • clavier2023/06/18 clavier
    • ayaniimi2132023/06/15 ayaniimi213
    • kiririmode2023/06/09 kiririmode
    • midas365452023/06/08 midas36545
    • m0t0m0t02023/06/07 m0t0m0t0
    • a2cNSMR2023/06/07 a2cNSMR
    • mgl2023/06/07 mgl
    • bayaread2023/06/07 bayaread
    • mixedjuicegofyugofyu2023/06/06 mixedjuicegofyugofyu
    • Windymelt2023/06/06 Windymelt
    • kintoki32023/06/06 kintoki3
    • toshikish2023/06/06 toshikish
    • marutaku01312023/06/06 marutaku0131
    すべてのユーザーの
    詳細を表示します

    同じサイトの新着

    同じサイトの新着をもっと読む

    いま人気の記事

    いま人気の記事をもっと読む

    いま人気の記事 - テクノロジー

    いま人気の記事 - テクノロジーをもっと読む

    新着記事 - テクノロジー

    新着記事 - テクノロジーをもっと読む

    同時期にブックマークされた記事

    いま人気の記事 - 企業メディア

    企業メディアをもっと読む