2012/12/7にComSysで招待講演した際のプレゼン資料です。2013/1時点でのJubatusに関する全部入り資料になっています。 概要:Hadoopは非常に成功した大規模データの分散処理基盤である一方、データを貯めないリアルタイム処理や、統計的な手法で知見や予測モデルを得る機械学習技術のサポートは限定的である。Jubatusは、それらHadoopに足りない「分散・リアルタイム・機械学習」を実現するためのOSSフレームワークとして2011年にリリースされた。その技術的特徵は、オンライン学習アルゴリズムを分散化し、かつ分散環境でコストの高いデータ共有を排除してコンパクトな機械学習モデルのみを緩やかに共有するMix操作を中心とした計算アーキテクチャを採用していることにある。本講演ではその動作原理を中心にJubatusの裏側を紹介する。