2018年12月22日のブックマーク (2件)

  • pandasで1000万件のデータの前処理を高速にするTips集 - Qiita

    はじめに 当社にアルバイトに来ていた人(来春に新卒入社の予定)に「pandasを高速化するための情報は無いですか?」と尋ねられました。 このパッケージの使い方は多数の書籍やWebで体系立った記事で書かれています。 しかし、高速化に関しては体系的な情報源が思いつかなかったので、「実際に書いてみて、1つ1つチューニングするしかないです」としか答えられませんでした。 そこで、この方を始め、来春(2019年4月)にデータアナリストまたはデータサイエンティストになる新卒へ向けて、pandasの高速化に関する私の経験をTips集にしてお伝えしたいと思います。 この記事は今後も内容を充実させるために、Tipsを追加していきます。 この記事を読んだ後にできるようになること pandasでレコード数1000万件のデータでも1分以内で完了する前処理が書けるようになります。 その結果、1日中実行し続けなければな

    pandasで1000万件のデータの前処理を高速にするTips集 - Qiita
    kojiro-s
    kojiro-s 2018/12/22
    pandas
  • 「awkでデータ処理する際、空白判定はNULLによってできます」は罠 - 53歳限界プログラマの憂鬱

    awkでスクリプト書いてて嵌ったので簡単に記事を書く フィールドに何もない時、処理を変えたいとき、いろいろググると d.hatena.ne.jp このようなので、 if ($2==NULL) とか if ($2!=NULL) とか $3!=NULL { とかやって一見うまく動くのですが・・・・ フィールドが空白ではなく、0 が書かれていても 0==NULL なので、期待通りには動かない(これで嵌って悩んだ) 空白判定は $2==NULLではなく $2=="" でやる方が安全です

    「awkでデータ処理する際、空白判定はNULLによってできます」は罠 - 53歳限界プログラマの憂鬱
    kojiro-s
    kojiro-s 2018/12/22
    awkで空白判定