タグ

2017年8月4日のブックマーク (2件)

  • PythonでCSVを高速&省メモリに読みたい - tkm2261's blog

    今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、 なんとかGILのあるPythonでも高速に読み込みたいと思います。 ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。(オレオレライブラリ嫌い) Pickleは早いけど。。。 結論はDask使おう! 検証環境 データ 速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +

    PythonでCSVを高速&省メモリに読みたい - tkm2261's blog
    akiramaz
    akiramaz 2017/08/04
    追試験する
  • OSSベースの機械学習が強い理由

    英語版はこちら。 TensorFlowの登場以降、OSSベースの機械学習の盛り上がりは加速しています。Kerasの作者のFrançois Cholletさんの言葉が、この状況を非常に端的に表しています。これだけでも十分だとは思いますが、この記事では、なぜオープンソースの機械学習が強いのか、最近のどういった流れがあるのかを整理したいと思います。 tl;dr機械学習やDeep Learningのフレームワークが充実してきた論文が査読前に公開され、他社も簡単にアルゴリズムの検証ができるようになった多くのプレーヤーの参戦により、アカデミアでの機械学習の研究がレッドオーシャン化した他社にないアルゴリズムで一発勝負、実装は秘密、というアプローチが厳しい牧歌的な時代5年前10年前の世界では、先端の機械学習に取り組んでいるのは大学などの研究室、大企業の研究所や一部の先進的な企業がほとんどでした。特に、ラベ

    OSSベースの機械学習が強い理由