タグ

ブックマーク / yutori-datascience.hatenablog.com (2)

  • Kaggle Tokyo Meetup #3 開催レポート - tkm2261's blog

    こんにちは。tkm2261です。 今日は10/28に開催したKaggle Tokyo Meetup #3の模様をレポートします。 connpass.com このmeetupは@threecourseさんや@smlyさんが2年前ぐらいから始めて不定期で開催しており、 私もニートの有り余る労働力を活かして今回運営をして来ました。 開始前 今回はsmlyさんの勤め先であるアドバンステクノロジーラボさんに会場をお借りすることが出来ました。 いよいよKaggle Tokyo Meetup当日です! 入り口入って右手のエレベーターで4Fです お待ちしております! pic.twitter.com/80r6soIJ9H— Takami Sato (@tkm2261) 2017年10月28日 渋谷の超良いところにあって、美術館の上という超良いところのオフィスでした。 今回、Youtubeのチャネル登録者数が

    Kaggle Tokyo Meetup #3 開催レポート - tkm2261's blog
  • PythonでCSVを高速&省メモリに読みたい - tkm2261's blog

    今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、 なんとかGILのあるPythonでも高速に読み込みたいと思います。 ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。(オレオレライブラリ嫌い) Pickleは早いけど。。。 結論はDask使おう! 検証環境 データ 速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +

    PythonでCSVを高速&省メモリに読みたい - tkm2261's blog
  • 1