The first and most important step towards developing a powerful machine learning model is acquiring good data. It doesn’t matter if you’re using a simple logistic regression or the fanciest state-of-the-art neural network to make predictions: If you don’t have rich input, your model will be garbage in, garbage out. This exposes an unfortunate truth that every hopeful, young data scientist has to c
Cookiecutter Docker Science Data scientists do many machine learning or data mining tasks. For such data engineering tasks, researchers apply various tools and system libraries, which are constantly updated. Unfortunately installing and updating them cause problems in local environments. Even when we work in hosting environments such as EC2, we are not free from this problem. Some experiments succ
機械学習の実験における悩みの一つに実験の再現性があります。再現性は実験を共同研究者に引き継いたり、ソフトウェアエンジニアにモデルをデプロイしてもらう時に問題になります。残念ながら、機械学習で利用するライブラリは数も多く、アップデートも頻繁に行われます。そのため動作する開発環境を維持、共有するのは難しい問題と言えます。 そこでデータサイエンティストが実験結果を他人に引き継ぐことを容易にするテンプレート、Cookiecutter Docker Science を作ってみました。このテンプレートは機械学習の実験環境を Docker コンテナ上に爆速で構築できます。仮想環境なのでライブラリ群の不足やバージョンの不一致に悩まされず実験結果を確実にシェアできます。 また Docker でコンテナを作ったり、削除したり設定したりといった作業の煩雑さを低減するための機能を提供しています。そのため、データサ
18 Jul 2012 Here I list a handful of code patterns that I wish I was more aware of when I started my PhD. Each on its own may seem pointless, but collectively they go a long way towards making the typical research workflow more efficient. And an efficient workflow makes it just that little bit easier to ask the research questions that matter. My guess is that these patterns will not only be useful
仕事上Pythonでスクリプトをよく書くので、雛形コードを備忘録も兼ねて載せておきます。 python3系の雛形 python 3.3以降を対象としています。 概要 この雛形では以下のことをしています。 コマンドライン引数のパース(clickの利用) 設定クラスの読み込み ログ出力(loggingの利用) ライブラリ読み込み ライブラリの単体テスト ファイルの配置 app_home/ ├ bin/ │ └ my_batch.py #←実行するスクリプト ├ conf/ │ └ my_batch_conf.py #←設定クラス ├ lib/ │ └ my_lib.py #←ライブラリ ├ tests/ │ └ test_my_lib.py #←単体テストコード ├ log/ #←ログ出力先 └ Pipfile #←使うライブラリを列挙 import logging import os imp
Templating, and in particular web templating is a way to represent data in different forms. These forms often (but not always) intended to be readable, even attractive, to a human audience. Frequently, templating solutions involve a document (the template) and data. Template usually looks much like the final output, with placeholders instead of actual data (or example data in simplified form), bea
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く