容易に再現可能なデータ解析と可視化の環境 私は仕事で各種ツールの使い方のレクチャーを行うこともあるのですが、この時に頭が痛い問題は、こちらで用意したサンプルやチュートリアルの実行環境の配布方法です。通常一つのデータ解析ワークフローを実行する場合、素の状態のPythonやR実行環境だけで済むことは稀です。多くの場合、PythonならばSciPy / NumPy / Pandas、生物学者向けのRを使ったレクチャーならばBioconductorといった定番のツールをインストールし、更に目的のアプリケーションを実行するために追加のライブラリをインストールする必要があります。もちろん全てを詰め込んだ仮想マシンファイルを配布することも出来ますが、自前で配布するフィルサイズが増えたり、その仮想マシンを作成するのに必要な手順をどう保存/自動化するのかといった問題があります。 幸い最近は各種ツールを組み合