こんにちは。今年の6月に入社した Web Developer の田中です。 Quipper ではデータの収集に Treasure Data(以下 TD) を使っています。今回、収集したデータの一部(数千万件ほど!)を MongoDB にインポートする必要があったので、その時にやった事をまとめました。 tl;dr TD に数千万件あるデータを MongoDB にインポートする必要があった Ruby で愚直に書いたらリソースを使いきってサーバが落ちた Engineering チームと協力して、サーバ強化+別インスタンス化、コードの省メモリ化を行い、無事にインポートできた 概要 以下のような事をやりました。 まず、TD で必要なデータを出力する JOB をつくる Rake タスクで、以下を行う JOB ID を指定してデータをダウンロード ダウンロードしたデータを MongoDB に突っ込む つ