This domain may be for sale!
こんにちは.最近ピクルス作りで精神統一をしている,たんぽぽグループ解析チームの石川有です. このブログではお馴染みのたんぽぽグループですが,"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"というミッションを持っています.その中で解析チームは,データ解析基盤の構築,データマイニング,データ解析の社内コンサルティングを行ない技術からの改善を担当しています. 今回の記事では,mixi における解析基盤について簡単に触れたあと,その基盤における「刺身の上にタンポポをのせる仕事」をどう減らすかの2点について書きます. mixi の解析基盤 まずは解析環境について,簡単にお話します.2012-08 現在 mixi では,主な解析用のツールとしては,Apache Hadoop, Hive を利用しています.またあわせて,自分など一部の人は,
次世代Hadoopの特徴は、 MapReduce 2とGiraph Hadoopの父に聞く、HadoopとClouderaの現在・未来 有限会社オングス 後藤 大地 2011/9/15 ■ 増え続けるHadoop活用企業 大規模データの分析に、Javaのフレームワーク「Apache Hadoop」(以下、Hadoop)を採用する事例が増えている。HadoopはMapReduceの実装系の1つで、特にログデータ解析やリサーチ目的の大規模データ分析や計算などに活用されている。TwitterやFacebook、mixi、LinkedIn、Groupon、Amazon、eBay、Yahoo!、楽天、クックパッド、リクルート、ディー・エヌ・エー、サイバーエージェントなどのいわゆるWebサービス系企業だけでなく、NTTデータ、Amazon Web Services、国立国会図書館、EMC、PFI、ウル
Clouderaカンファレンスということで,Hadoopの生みの親Doug Cutting氏の講演会に参加しました.Cloudera カンファレンス Doug Cutting 講演会(仮) on ZusaarHadoopの名づけ元となった象のぬいぐるみもいました! 意外と細いんですね〜 The Future of Hadoop Context Data: 1.8ZB in 2011 Hadoop: Solution for Big Data HDFS and MapReduce: Hadoop Core Hive, Pig, Hbase, Mahout, and many components.. Dependency between components is big problem! Bigtop: package manager of Hadoop Apache Bigtop Big
一応感想というかメモ書き ・DougはApacheのChairmanであり、ポジション的には Clouderaのビジネスを語る立場ではないので、 普通にテクノロジーとして意見を聞くべき ・ビジネス的には仮にC社が買収されたとして 本家がApacheで保護されているので大ジョブというスタンス (この辺は割り引いた方がよいとは思うが) ・ということはスペックリーダーはClouderaではなく Apache本家とみた方が妥当。新規の開発はほぼApache中心で Clouderaはパッケージ担当に近い。万が一に備えて エンジニアも心情的にはそっちに振っているとみた。 ・ApacheHadoopは「インフラ的な役回り」に行こうとしてる。 YARNやMapReduce2.0を見ればわかる通り、 ResourceManagerのワードが山ほど出てくる。 これは「ノード処理はすべて引き受ける」という風に見
Mahoutシリーズ目次(随時更新) 非分散レコメンデーション Apache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS (これ) レコメンデーションの簡単な原理を視覚的に把握してから実際に計算してみる - 都元ダイスケ IT-PRESS 機械学習における重大な"仮定"と、アルゴリズムの評価 - 都元ダイスケ IT-PRESS 分散レコメンデーション Mahoutで分散レコメンド(1) - 都元ダイスケ IT-PRESS Mahoutで分散レコメンド(2) - 都元ダイスケ IT-PRESS Mahoutで分散レコメンド(3) - 都元ダイスケ IT-PRESS クラスタリング 今度はMahoutでクラスタリング - 都元ダイスケ IT-PRESS 今度はMahoutでクラスタリング(ソース編) - 都元ダイスケ IT-PRESS では、本文いきます。 Apach
Yahoo!のブログにHadoopに関する興味深い記事が上がっていたので紹介したいと思います。かなりボリュームのある記事で翻訳するのは骨が折れました。The Next Generation of Apache Hadoop MapReduce · Yahoo! Hadoop Blog原題はシンプルに「次世代のApache Hadoop MapReduce」です。 概要大規模データを扱うビジネスでは、少数の大規模なクラスタのほうが多数の小規模なクラスタよりも安価になります。大規模クラスタは多くのデータセットを処理し、多くのジョブと多くのユーザをサポートする必要があります。ApacheのHadoop MapReduceフレームワークはだいたい4,000台程度でスケーラビリティの限界が来ます。私たちは次世代のApache Hadoop MapReduceを開発しており、そこではフレームワークを汎
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く