Hadoopは正直専門外、というか12月に研修を受けるまで、 触ったことすらなかったのよね。 おかげで資料作りには、丸2日ぐらいかかった。 こんなに資料作りに時間をかけたのは久しぶりな気がする。 間違いとかもあるかもなので、あったら教えてくださいな。 それにしても、IPv6はHadoopでもいらない子なんだねえ。 大量のサーバと潤沢なアドレス空間の相性は良さそうなのに。
Hadoopは正直専門外、というか12月に研修を受けるまで、 触ったことすらなかったのよね。 おかげで資料作りには、丸2日ぐらいかかった。 こんなに資料作りに時間をかけたのは久しぶりな気がする。 間違いとかもあるかもなので、あったら教えてくださいな。 それにしても、IPv6はHadoopでもいらない子なんだねえ。 大量のサーバと潤沢なアドレス空間の相性は良さそうなのに。
ひしだまHPの更新履歴。 主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。 Hadoop0.23.0が出たので、噂のMapReduce2.0であるYARNの最小限サンプルを書いてみた。 いやー、しかしYARNを甘く見てた^^; YARNはもうMapReduceとは(直接は)関係ないので、MapReduce2.0とは呼ばない方がいいね。 従来のHadoopなら、「MapReduceのプログラムを書くよ」と言ったら、MapperやReducerを実装するのをイメージすると思う。 そして、JobTrackerやTaskTrackerが自動的にタスク分割して実行してくれる。障害が発生したら別ノードで再実行してくれるし。 しかし「YARNのプログラムを書くよ」というのは、JobTrackerやTaskTrackerや障害対応をコーディングする事に相当する!
概要 YARNは、Hadoop0.23におけるジョブ実行フレームワークの名前。 0.23より前のHadoopはMapReduceというアルゴリズム(に基づくフレームワーク)だったので、次世代MapReduceという意味でMapReduce2.0(MRv2)とも呼ばれているが、実際はもうMapReduceではないので、別の名前が付けられたのだろう。 YARNでは、以下のような手順でアプリケーションを実行する。 (ResourceManager(RM)とかApplicationMaster(App Mstr・AM)とかの関係については、YARN Architectureを参照) ClientがResourceManagerに対してプログラム(ApplicationMaster)の実行を依頼(submit)する。 ResourceManagerは、どこかのノードでApplicationMaste
どうも,実は今年から開発チームにjoinしていた中川です.可愛い犬の写真がなかったので,可愛いマスコットの画像を貼っておきます. 最近MapReduceとかその実装であるHadoopとかをよく聞くようになりました.これはつまり,それだけ大量のデータをなんとか処理したいという要望があるからだと思います.しかし当たり前ですが,MapReduceは銀の弾丸ではありません. ということで,最近気になっているMapReduceとは違ったアプローチを取っている分散処理基盤について,社内のTechTalkで話した内容を簡単にまとめて紹介したいと思います. Bulk Sychronous Parallel このアルゴリズム自体は1990年に誕生したものです.長いのでBSPと書きます.さて,グラフから最短経路を求める時,MapReduceは使えるでしょうか?このような論文が出るくらいですから出来ないことはあ
NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮 これで話題になっていたのは知っていたけど仕事と関係無かったこともあり今まで読んでなかったんですが、1か月ほど前からHadoop仕事を始めたこともあり読んでみました。 ま、現状はNTTデータから仕事もらっている立場だし提灯記事でも書こうかとw 目次はこんな感じになってます。 で、全部で375ページもあるわけですが、アプリ開発者がとりあえず読むなら2章です。もうちょっと突っ込むなら関連する8章もプラスして読むといいでしょう。どうでもいいけど印刷して読んだほうがいいかも。僕はiPadで読みましたが2章は割とページをいったりきたりしたので。 2章では渋滞解析アプリケーションを事例としてMapReduceアプリをどのように設計して、実装するのかが記述されていてとても参考になります。というかこれだけまとまった情報は象本にもHadoo
IBMは結構Hadoopに力を入れています。 例えば以下で独自のHadoopのディストリビューションを配布しています。(ディストリビューションを配布ってちょっと変な言い回しですが) - alphaWorks : The IBM Distribution of Apache Hadoop : Overview The IBM Distribution of Apache Hadoop is a joint project between the IBM Software Group Emerging Technology team and the Information Management analytics development team. 内容はApache Hadoopに独自のインストーラーとIBM JDK for Linuxを組み合わせたもののようですね。FAQに以下の記述があり
Design Patterns for Efficient Graph Algorithms in MapReduce Jimmy Lin and Michael Schatz University of Maryland, College Park {jimmylin,mschatz}@umd.edu ABSTRACT Graphs are analyzed in many important contexts, includ- ing ranking search results based on the hyperlink struc- ture of the world wide web, module detection of protein- protein interaction networks, and privacy analysis of social network
GraphChi (Michael Leznik, Head of BI - London, King) GraphChi, a disk-based system for computing efficiently on graphs with billions of edges. By using a well-known method to break large graphs into small parts, and a novel parallel sliding windows method, GraphChi is able to execute several advanced data mining, graph mining, and machine learning algorithms on very large graphs, using just a singl
Agile Cat @Agile_Cat Hadoop モテモテw RT @xxkickerxx: 私もー見ますー。RT @Agile_Cat: あとで見ます~~~♪ RT @ryu_kobayashi: Hadoop2010: Hadoop Security in Detail. http://goo.gl/le4w 2010-07-17 16:12:55 御徒町@Serializable @okachimachiorz HadoopSecurity 0.20系 ①ケルベロス導入 ②HDFSへのアクセス(ticket) ③MRのACLの設定 独立ユーザーがそれぞれにセキュアにHadoopを利用するようにしている。http://bit.ly/93T45E @myen 2010-07-17 17:04:15
This document summarizes two graph algorithms for analyzing large graphs: connected components and clustering coefficient. For connected components, it describes a two step approach: 1) partition the graph and summarize connectivity on each partition, reducing data size, and 2) recombine the summaries to find the overall connected components. This approach works for other problems like finding min
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message 皆さま 本日、Yahoo!からHDFSを大規模な環境(数千~数万ノード)でHDFSをdeploy した際に、どのような問題があるかという情報が色々書かれた記事/blogがポ ストされました。 - HDFS Scalability (PDF注意) -- http://www.usenix.org/publications/login/2010-04/openpdfs/shvachko.pdf - Scalability of the Hadoop Distributed File System -- http://devel
Data-Intensive Information Processing Applications (Spring 2010) Course: INFM718G/CMSC838G Time: Tuesday, 2:00-4:45pm Location: HBK 2119 Instructors: Jimmy Lin, () and Nitin Madnani, () This course is about scalable approaches to processing large amounts of information (terabytes and even petabytes). We focus mostly on MapReduce, which is presently the most accessible and practical means of co
If you are reading this on Wikimedia servers, please note that we have rate limited downloaders and we are capping the number of per-ip connections to 2. This will help to ensure that everyone can access the files with reasonable download times. Clients that try to evade these limits may be blocked. Our mirror sites do not have this cap. Data downloads The Wikimedia Foundation is requesting help t
基礎文法最速マスターが流行のようなので、 便乗して勉強がてらにHBaseの基本操作について纏めてみます。 Perl基礎文法最速マスター - Perl入門ゼミ はてな的プログラミング言語人気ランキング - Life like a clown これを読めばGoogleのBigTableのクローンであるHBaseの基本操作について何となく理解できるかも?です。 他の基礎文法最速マスターと同じように簡易リファレンスを兼ねていますので足りない部分をあればご指摘ください。 HBaseは2010-02-01時点で最新のHBase0.20.3を対象としています。 インストール方法については前記事を参照ください。 Cygwinを利用してWindowsにHBaseをインストール - Stay Hungry. Stay Foolish. 対話式シェルの実行 基本 HBaseではHBase Shellという対話式
Cassandra versus HBase performance study の結果が興味深かったので、メモ。 Yahoo.incの社員が、以下のcloud serviceについて ベンチマークをとったようです。 cassandra 0.4 and 0.5 MySQL Hbase Sherpa 結果については、PDFの通りだけど、 個人的な感想を書いちゃうと以下の通り cassandraはリアルタイム処理系としてはいけてるんじゃないか バージョンが上がることで性能がかなり上がっているので将来性がありそう MySQLベースのものはスケールしにくい? 現状の話、今後改善されるのかも Hbaseはリアルタイム系処理を想定されて作られているのか? cassandraとHbaseを同じ土俵で比べない方がいい気がする 自分が言うリアルタイム系処理、とは、 多くのユーザに同時にアクセスされ、そのリク
Hi folks, We have been conducting a performance study comparing Cassandra and HBase (and Yahoo! PNUTS and MySQL) on identical hardware under identical workloads. Our focus has been on serving workloads (e.g. read and write individual records, rather than scan a whole table for MapReduce.) This is part of a larger effort to develop a benchmark for these kinds of systems (which we are calling YCSB,
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く