タグ

bigdataに関するtsupoのブックマーク (3)

  • 進化するHadoop、戸惑うユーザー

    「Hadoop」はこれまでのバッチ処理という枠を越え、汎用の分散データ処理プラットフォームへと進化し始めている。Hadoop上でSQLクエリーを高速に処理したり、インメモリー処理を実行したりすることも可能になった。しかしHadoopの急速な進化は、ユーザーに思わぬ影響も与え始めている。 Hadoopの進化を下支えしているのが、Apacheソフトウエア財団(ASF)が2013年10月に正式版をリリースした「Hadoop 2」が搭載する「YARN」である。クラスター管理とスケジューリング管理を司るYARNが追加されたことによって、MapReduce以外の様々な処理方式をHadoopクラスター内で同時に実行できるようになったからだ。 Hadoopのディストリビューション(検証済みパッケージ)のベンダーである米ホートンワークスのロブ・ベアデンCEO(最高経営責任者)は、2014年6月に開催した「H

    進化するHadoop、戸惑うユーザー
    tsupo
    tsupo 2014/06/27
    従来のHadoop、つまりYARNを使わないHadoopのことを「Traditional Hadoop」と呼んでいる / 開発リソースをHadoop 2に注力し、Traditional Hadoopに対する性能改善や機能追加を、ほぼ止めてしまった
  • 成績を上げるには教室の前方の席に座るべきか、ビッグデータの限界が露呈する「狼少年」問題

    ビッグデータは膨大なデータから相関関係を導き出し、これまで私たちが気づかなかった関係性に気づかせてくれる。つまり、見逃していた情報を教えてくれる、ということである。 これは野球でいえば、「見逃し三振を防ぐ」ことに似ていて、大きな意味がある。その関係性に気づいただけでも、ビジネス上の利益につながることがある。米アマゾン・ドット・コムのリコメンデーション(推奨)では、3割もの売り上げ向上があったと言われている。 「見逃し三振を防ぐ」のは確かに重要なことではあるが、同時に別の問題が生じることがある。それは「狼少年(の童話)」問題である。 ビッグデータでは一般に、因果関係よりも「相関関係」を重視する。ビッグデータから相関関係が見つかれば、それを予測に使おうとする。 しかし、そもそも相関関係と因果関係は違うものだ。因果関係がなくても、データ分析では相関関係が出てくる場合がある。 あなたは以下の問題を

    成績を上げるには教室の前方の席に座るべきか、ビッグデータの限界が露呈する「狼少年」問題
    tsupo
    tsupo 2013/10/16
    ビッグデータでは一般に、因果関係よりも「相関関係」を重視する / しかし、そもそも相関関係と因果関係は違うものだ。因果関係がなくても、データ分析では相関関係が出てくる場合がある → 「狼少年」問題
  • データサイエンティストの本当の役割と、分析の失敗パターンとは?

    データサイエンティストの当の役割と、分析の失敗パターンとは?:情シスに贈る“社内プレゼンス向上のヒント” 昨今、注目を集めている「データサイエンティスト」だが、イメージばかりが先行している感も強い。その企業における意義と役割、分析のアプローチをあらためて見直すことで、データ活用のポイントを探る。 ビッグデータという言葉が社会に浸透して久しい。これをバズワードと見る風潮もあるが、一部では活用に成功する企業が現れたほか、多くの企業があらためて分析に注力するきっかけにもなっている。だがデータの山を前にして、その中に眠る金脈の存在を感じながらも掘り出すノウハウがないことに、もどかしさを感じる企業も増えている。 こうした中、ビッグデータから有効な知見を引き出せる人材として、データサイエンティストが注目を集めている。その背景にはデータの山から宝を取り出せない企業のストレスばかりではなく、「今最もセク

    データサイエンティストの本当の役割と、分析の失敗パターンとは?
    tsupo
    tsupo 2013/05/22
    「データサイエンティスト」という言葉も既に飽和 / 「データサイエンティスト」という肩書きを従業員にいたずらに付与する傾向 / 「分析はできても成果につなげることは難しい」という問題
  • 1