タグ

2013年11月13日のブックマーク (2件)

  • NECがビッグデータの機械学習を高速化する技術を開発、インメモリー処理やMPIを導入

    NECは、ビッグデータ分析を高速化する分散処理フレームワーク「Feliss」を開発した(発表資料)。ビッグデータ分析でよく用いられるHadoopは、Map-Reduce型の単純な分析であれば高速に実行できるが、繰り返し演算を多用する機械学習処理では、ジョブ間でストレージを経由してデータをやり取りするHDFSがボトルネックとなり、演算の効率を上げにくい。 そこでNECのFelissでは、ジョブ間のデータのやり取りをインメモリーで実施するようにした。さらに演算ノード間の通信などにおいて、並列処理の際のメッセージパッシングのAPIとして一般的な「MPI」を同時に使えるようにした。これにより、機械学習のような複雑な演算について、通常のHadoopを用いる場合と比べて10倍ほど高速に実行できるようにした。FelissはHDFSのインタフェースを備えており、最初のデータ読み出しはHDFSから行える。

    NECがビッグデータの機械学習を高速化する技術を開発、インメモリー処理やMPIを導入
    mooz
    mooz 2013/11/13
    Spark に Shark に継続の永続化に、ずいぶんマニアックで良い記事
  • PRML合宿まとめサイト

    ■上巻 第1章: 序論 序論ではまずパターン認識の最も簡単な例として多項式曲線フィッティングを取り上げ、パターン認識・機械学習の基的な枠組みを紹介する。そしてベイズの定理や統計量などの確率論の基礎を導入し、確率論の観点から再び曲線フィッティングを扱う。不確実性はパターン認識の分野における鍵となる概念であり、確率論はこれを定量的に取り扱うための一貫した手法を与えるため、この分野における基礎の中心を担っている点で重要である。 また、回帰・識別の実際の取り扱いに際して必要となる決定理論や、パターン認識・機械学習の理論において役立つ情報理論の導入についても行う。 発表資料はこちら(ppt)とこちら(ppt)。前半では多項式曲線フィッティングの例およびベイズ的確率を、後半では決定理論および情報理論を取り扱っている。 第2章: 確率分布 第2章では二項分布や多項分布、ガウス分布といった各種の確率分布