Treasure Dataのサービスを構想した際に、データ解析をとにかく簡単に、かつスムーズに行える世界を実現するというのが根底にありました。個人的にHadoopコミュニティに関わる中で、以下の3つの大きな問題が有りました。 大規模な初期投資 / 特殊人材が必須 クラウドサービスによる提供モデル データ収集にプロジェクトの60% 〜 70%の時間が使われる 様々なデータコレクタを提供、通常1〜2週間でデータの投入は完了(参考: Treasure Dataのデータインポート方法一覧) スキーマ管理の権限移譲問題 今回はこちらの話題を取り上げます。 200個の正規表現を管理するデータサイエンティスト サービスの構想を練っている際、現在は弊社に所属している井上のスライドを片っ端からチェックしました。彼は当時ソーシャルゲームの会社に所属しており、ユーザー行動ログのデータ分析に関する様々な発表を行っ