[B! spark] takuya0411のブックマーク

takuya0411 id:takuya0411

sparkに関するtakuya0411のブックマーク (1)

Apach Spark + Spark MLlib + MongoDBでwikipedia記事をクラスタリング
JWordのO.Yです。ビッグデータがムーブメントとなって久しく、用途はなんであれ今はHadoopを導入している企業さんも多いことかと思います。 JWordでもHadoopを導入しており検索クエリーの集計等に使用しています。 Hadoopは簡単に分散処理環境を実現することができますが、分散させる処理単位でmapreduceアプリケーションを書かなきゃならないので複雑な処理だとプログラム量が多くなりやすい、Hadoop Streamingを使用した場合には処理スピードが遅い（JWordでは開発効率を優先してPHPかPythonでmapreduceアプリケーションを書いている）、起動デーモンが多すぎる、メモリコントールが難しい（メモリ系の設定がたくさんありバージョンによって微妙に名前が変わってたり廃止されてたりする）、HDFSを必要としない場合でもセットで付いてくる等デメリットもあります。
takuya0411 2016/06/19
spark

mongodb
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx