タグ

hadoopに関するlarkerのブックマーク (4)

  • Hadoopに関する雑感 (Hadoop アドベントカレンダー2012 XX日目) - 科学と非科学の迷宮

    最近はなるべく技術的な話しか書かないようにしていたのですが、たまには個人的な思考を書いてみることにします。 クリスマスだし、ブログ初めてから8周年でもあるわけですし。 Hadoop は、大量のデータをリーズナブルに計算処理できるようにしたいという課題から生まれました。 つまりキーとなる課題として、 データが大量である リーズナブルである 計算処理ができる というものがあります。 後ろ2つは話が早い。低コストで計算処理を行いたいというのはほとんどのIT関係者が抱くニーズでしょう。 しかし、「データが大量である」という課題が厄介です。 まず第一に、「そんな大量のデータがどこにあるのか?」という問題があります。 たとえば1日1TBのデータを生成したとしても年間365TBです。ようするに 0.3PB。ビッグデータの代名詞として言われる「ペタバイトオーダー」には程遠いです。 1日1TBって、要するに

    Hadoopに関する雑感 (Hadoop アドベントカレンダー2012 XX日目) - 科学と非科学の迷宮
    larker
    larker 2013/12/06
    分散処理は有用なのだが実際に必要としている人はかなり少ない
  • Spark/Sharkで次世代Hadoop? – OpenGroove

    Clouderaが、Apache Sparkのサポートを開始したそうだ。 正直に言うと、Apache Sparkって今日初めて聞いたんだけど… Cloudera announces support for Apache Spark, Cloudera Connect: Innovators partnership with Databricks. http://t.co/hRP7xbMTxH — Matt Aslett (@maslett) October 28, 2013 以下資料によると、Hadoop HDFSに特殊なキャッシュを載せて繰り返し処理を高速化できるもの、らしい。条件によってはMapReduceより100倍高速になることも。処理はDSLで記述するが、さらにSQLライクな構文で記述可能なフレームワークSharkを利用することでHive同様な使い方ができる! こちらは日語の非

  • Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると

    Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向のMapReduceではなく、リアルタイム性に優れた処理が必要になったためだと、次のように説明しています。 Facebook’s warehouse data is stored in a few large Hadoop/HDFS-based clusters. Hadoop MapReduce [2] and Hive are designed for large-scale, reliabl

    Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると
  • テキストマイニングで始める実践Hadoop活用

    Hadoopとは何かを解説し、実際にHadoopを使って、大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します いまさら聞けないHadoopとテキストマイニング入門 テキストマイニングで始める実践Hadoop活用(1) それぞれの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築します

  • 1