It’s hard to believe it’s been 15 years since the global financial crisis of 2007/2008. While this might be a blast from the past we’d rather leave in the proverbial rear-view mirror, in March of 2023 we were back to the future with the collapse of Silicon Valley Bank (SVB), the largest US bank to […] Read blog post
Part1 / Part2 更新履歴 2010/06/20 リンク追加 入門、事例紹介、ニュース Part2へ移動 EC2、Pig、MapReduce、HDFS 新規追加 性能測定 公式 Welcome to Apache Hadoop! 日本語訳 Hadoopユーザー会 Welcome to Hadoop MapReduce! "大規模な計算ノード・クラスタ上において膨大なデータを高速で並列処理するアプリケーションを作成するためのプログラミングモデルおよびソフトウェアフレームワーク" Welcome to Pig! "大規模なデータセットを分析するためのプラットフォーム""Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語" wikipedia Apache Hadoop - Wikipedia, the free encyclopedia Apa
id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの? データ全部をなめてるの? Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか? さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの? jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。 あとで調べときます。 今の世の中に出てるHadoop本って構築とか運用の話
Mapreduce & Hadoop Algorithms in Academic Papers (3rd update) Atbrox is startup company providing technology and services for Search and Mapreduce/Hadoop. Our background is from Google, IBM and research. Contact us if you need help with algorithms for mapreduce This posting is the May 2010 update to the similar posting from February 2010, with 30 new papers compared to the prior posting, new ones
Yahoo! has begun evaluating Hive for use as part of its Hadoop stack. Since, in many peoples' minds, Hive and Pig are roughly equivalent and Pig Latin is very close to SQL, this has led to some confusion. Why are we interested in using both technologies? As we have looked at our workloads and analyzed our use cases, we have come to the conclusion that the different use cases require different tool
Apache Hadoop is a software framework to build large-scale, shared storage and computing infrastructures. Hadoop clusters are used for a variety of research and development projects, and for a growing number of production processes at Yahoo!, EBay, Facebook, LinkedIn, Twitter, and other companies in the industry. It is a key component in several business critical endeavors representing a very sign
Thanks to the around 175 developers who came to Yahoo! recently for our monthly Hadoop User Group meeting. The energy in the packed room was phenomenal, and conversations continued long after the formal sessions. Hundreds of Hadoop Fans Flock to Yahoo! for the Hadoop User Group The event started with Arun Murthy from Yahoo! describing the best practices for developing MapReduce applications. Arun
The document discusses integrating Apache Cassandra, a NoSQL database, with Hadoop MapReduce. Specifically, it describes how Cassandra can be used as an input source and storage destination for MapReduce jobs. It also provides information on configuration options and contributing code to the Cassandra MapReduce integration.Read less
Please note that all new project news and releases have moved to https://cascading.wensel.net The Cascading Ecosystem is a collection of applications, languages, and APIs for developing data-intensive applications. At the ecosystem core is Cascading, a Java API for defining complex data flows and integrating those flows with back-end systems, and a query planner for mapping and executing logical f
This document discusses using MapReduce with Cassandra. It describes how writing to Cassandra from MapReduce has always been possible, while reading was enabled starting with Cassandra 0.6.x. Using MapReduce with Cassandra provides analytics capabilities and avoids single points of failure compared to MapReduce with HBase. The document covers setup and configuration considerations like locality, a
ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか? 現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。 従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など
クラウド上で動作する大規模分散処理のプラットフォームとして注目が集まるHadoop。そもそもはグーグルが大規模な検索を行うためにMapReduceと呼ばれる処理を考案し、それを基にオープンソースとして開発されたのがHadoopです。現在ではYahoo!やFacebookが社内の大規模データ処理のために採用していることでも知られていますし、日本でも昨年「Hadoopユーザー会」が立ち上がりました。 そのHadoopに関する国内初の、そして決定版的な書籍「Hadoop」がオライリー・ジャパンから1月に発刊されました。そこでこのHadoop本の翻訳者の一人である玉川竜司さんに、翻訳の裏話や読みどころなどをメールでインタビューしました。 玉川さんの本職と、Hadoop本を翻訳をすることになった経緯を教えてください。 本職は会社勤めの開発者なんですが、昨年頭からSilverlightのユーザー会をや
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く