タグ

ブックマーク / cocodrips.hateblo.jp (5)

  • 時間のかかる前処理をDaskで高速化 - ぴよぴよ.py

    最近仕事で自然言語処理を使ったモデルを作成していたんですが、 前処理やモデルを作る際に数分〜数十分単位の処理待ちの空き時間が頻繁に発生してしまい、 その度集中力が切れる問題に悩まされていました。 モデルの学習に時間がかかってしまうのはまた別の解決策を考えるとして、 今回は時間のかかる前処理をDaskをつかって高速化した方法をお話ししようと思います。 この記事は PyLadies Advent Calendar 2018 - Adventar の18日目の記事になります。 Daskとは? Daskとは、numpyやpandasなどのデータを簡単に並列計算するライブラリ。 あまり公式のチュートリアルがわかりやすくない(気がする)ので、基的な使い方は Python Dask で 並列 DataFrame 処理 - StatsFragments を見てみると良い。 サンプルデータ 今回はKagg

    時間のかかる前処理をDaskで高速化 - ぴよぴよ.py
  • Pandasを使ったデータ操作の基本 - ぴよぴよ.py

    データ分析の会社に転職してから3ヶ月。 最初の1ヶ月はPandasの扱いに当に困ったので、 昔メモしてたことを簡単にブログに記録しておく(o ・ω・)ノ 【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型 テストデータについて 余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロード データのサイズ データのカラム 行列から必要な列(カラム)を取り出す 条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す 追記(2017/12/14) 行列から必要な行番号を指定してを取り出す グループ分けと集計 新たな列を追加する 固有値を追加する 他の列を加工して新たな列を作る 他の複数列を加工して新

    Pandasを使ったデータ操作の基本 - ぴよぴよ.py
  • 1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ - ぴよぴよ.py

    前回の「ゲームプログラマからデータサイエンティストに転職しました」 の記事でもお話したとおり、5月からデータ解析する人になりました。 とはいえ、データ解析に関しては未経験。 少しでも不安を減らすために、4月の有給消化期間は統計学のお勉強しました。 今回はおすすめしてもらった中で読んで良かったの紹介、そして読んだの簡単なまとめを書いて行きたいと思います。 ※前提: 4月時点の自分の知識に関して 自分は大学は情報科学を専攻していたが、難しい数式は苦手 統計学は1コマ分受講していたが、単語を覚えている程度でかなりあやうい まず一番最初に読みたい 「完全独習 統計学入門」 「簡単に統計学の全体像がつかめる入門書はないか」とTwitter相談したら、こちらのを数名の方が薦めて下さった。 完全独習 統計学入門 作者: 小島寛之出版社/メーカー: ダイヤモンド社発売日: 2006/09/28メ

    1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ - ぴよぴよ.py
  • 強くなるためのプログラミング -様々なプログラミングコンテストとそのはじめ方- - ぴよぴよ.py

    みなさんは何のためにプログラミングをしていますか? 仕事のため、何かをつくるため。 それも良いけれど、「強くなる」ためにプログラミングしてみませんか。 様々なジャンルのプログラミングコンテストとまだ見ぬライバルたちがあなたを待っています。 今回はアルゴリズム/AI/機械学習/セキュリティ等の様々なジャンルのコンテストとその始め方について紹介したいと思います。 ※これはPyConJPでの発表を文字におこしたものです。が、Pythonの話は殆どないです。 プログラミングコンテストとは? すべてのコンテストに共通する、「コンテストに参加する利点」 1. 自分と同じ問題を解いた、他の人の解法を知ることができる 2. 同じコンテストに出ていた、たくさんのライバルと知り合える アルゴリズムのコンテスト 問題1 問題2 TopCoder Single Round Match CodeForces AtC

    強くなるためのプログラミング -様々なプログラミングコンテストとそのはじめ方- - ぴよぴよ.py
  • クラスは知ってるけれどクラスの使い道がわからないあなたへ - ぴよぴよ.py

    「クラスは知ってるけどクラスの使い道がわからない」 「クラスとインスタンスの違いがよくわからない」 初心者にありがちなことだと思います。 クラスの存在価値がわかるまでって意外と大変です。 クラス・インスタンス・オブジェクト指向といえばJavaな気がします。 今日はクラスのありがたみをJavaのサンプルコードを用いながら、 簡単にではありますが説明してみたいと思います。 ここではクラスの「使い方」ではなくて「使い道」について話していきます。 (使い方がわからなくても、ついていけるとは思います) それではまずは、簡単な問題を出してみたいと思います。 怖がらないでください。 (1)あるグラフの上に、図のようなに3つの点が有ります。この3つの点の座標を持つプログラムを書いてみてください。 特に強いこだわりがなければ、ファイル名はLesson.javaとつけることにしましょう。 かけましたか? 書け

    クラスは知ってるけれどクラスの使い道がわからないあなたへ - ぴよぴよ.py
  • 1