皆さんはビッグデータを扱うときどのような形式で保存していますか?ここでいうビッグデータとは数GB~数十GB(笑)のJSONです。MongoDBのようなNoSQLなデータベース使う?素晴らしいと思います。PostgreSQLでJSONを使う?とても良いと思います。 ここでは、データベースという枠組みから外れて、「ファイルシステム」を中心に手軽にお安く(ここポイント)ビッグデータを扱うことを考えます。なので、この方法は最速ではありませんし、個人がちょっと遊んでみようというときに気楽にできる”チープ”な物です1。企業でやるならちゃんとしたデータベースを使うべきです。その前提で読んでみてください(ちょっと長いです)。 ファイルシステムは、テキストファイルやZipアーカイブといったただのファイルです。ただのファイルなので、データベースが得意なインデックスも効きませんし、検索や結合も弱いですし、同時接