この本ではMasonとWiggins(2010)のデータサイエンスの定義に従って解析をすすめていきます。すなわち、(1)データの獲得、(2)データのクレンジング、(3)データの精査、(4)データのモデリング、(5)データの解釈の5ステップです。(5)はコンピュータの出番が少ないこともあり触れていません。(3)にはデータの可視化なども含まれているようです。僕が感じたこの本の主な対象は(1)(2)であり、まごうことなき前処理本です。 コマンドラインの全オプションを説明するのではなく、例を通してsort, uniq, grep, cut, sample, head, tail, tr, sed, awk, curl, scrapeなどの基本的なコマンドラインをいかに組み合わせてデータを加工・集計するかの説明が丁寧であり、網羅的ではありませんがチュートリアルとして非常に有用だと思います。Linux
![「コマンドラインではじめるデータサイエンス」Jeroen Janssensら - StatModeling Memorandum](https://cdn-ak-scissors.b.st-hatena.com/image/square/51bba934ff01cab815ac8acd7d1fa904b84cb05f/height=288;version=1;width=512/https%3A%2F%2Fblog.st-hatena.com%2Fimages%2Ftheme%2Fog-image-1500.png)