タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

sparkに関するtakuya0411のブックマーク (1)

  • Apach Spark + Spark MLlib + MongoDBでwikipedia記事をクラスタリング

    JWordのO.Yです。 ビッグデータがムーブメントとなって久しく、用途はなんであれ今はHadoopを導入している企業さんも多いことかと思います。 JWordでもHadoopを導入しており検索クエリーの集計等に使用しています。 Hadoopは簡単に分散処理環境を実現することができますが、分散させる処理単位でmapreduceアプリケーションを書かなきゃならないので複雑な処理だとプログラム量が多くなりやすい、Hadoop Streamingを使用した場合には処理スピードが遅い(JWordでは開発効率を優先してPHPPythonmapreduceアプリケーションを書いている)、起動デーモンが多すぎる、メモリコントールが難しい(メモリ系の設定がたくさんありバージョンによって微妙に名前が変わってたり廃止されてたりする)、HDFSを必要としない場合でもセットで付いてくる等デメリットもあります。

    Apach Spark + Spark MLlib + MongoDBでwikipedia記事をクラスタリング
  • 1