現在、DMM.comでは、1日あたり1億レコード以上の行動ログを中心に、各サービスのコンテンツ情報や、地域情報のようなオープンデータを収集し、データドリブンマーケティングやマーケティングオートメーションに活用しています。しかし、データの規模が増大し、その用途が多様化するにともなって、データ処理のレイテンシが課題となってきました。本発表では、既存のデータ処理に用いられていたHiveの処理をHive on Sparkに置き換えることで、1日あたりのバッチ処理の時間を3分の1まで削減することができた事例を紹介し、Hive on Sparkの導入方法やメリットを具体的に解説します。 Hadoop / Spark Conference Japan 2016 http://www.eventbrite.com/e/hadoop-spark-conference-japan-2016-tickets-2
![1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話](https://cdn-ak-scissors.b.st-hatena.com/image/square/78f40f8d2d07f1deac3444f91f0744bc5904c786/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Frhcjyjpub-160215092913-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)