2014/01/30 筑波大学情報システム特別講義Dの講義資料です。 join関係はNAIST時代の宮崎先生のデータ工学Ⅱの内容を参考にしてます。 animation有効なビデオはこちら https://vimeo.com/85598907
VLDB'11から読む予定の論文リストをPick-up(citeulikeに登録予定リスト) DB系/モダンハードウェア系/分散システム系/グラフアルゴリズム系を中心に http://www.vldb.org/2011/?q=node/28 HYRISE - A Main Memory Hybrid Storage Engine Martin Grund (Hasso-Plattner-Institut), Jens Krueger (Hasso-Plattner-Institut), Hasso Plattner (Hasso-Plattner Institute), Alexander Zeier (Hasso-Plattner Institute), Philippe Cudre-Mauroux (MIT CSAIL), Samuel Madden (MIT) Fast Sparse
Ilya Katsov氏による「MapReduce Patterns, Algorithms, and Use Cases」の翻訳 http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ (下書きに入れて推敲するつもりが、なんか公開されてしまっていたので、あとでいろいろ修正すると思います) February 1, 2012 この記事では、Webや科学論文で見られる異なるテクニックの体系的な視点を与えるために、数々のMapReduceパターンとアルゴリズムをまとめた。 いくつかの実用的なケーススタディも提供している。 すべての説明とコードスニペットでは、Mapper、Reducer、Combiner、Partitionaer、ソーティングにおいてHadoopの標準的なMapReduceモデルを利用します。このフレー
In this article I digested a number of MapReduce patterns and algorithms to give a systematic view of the different techniques that can be found on the web or scientific articles. Several practical case studies are also provided. All descriptions and code snippets use the standard Hadoop’s MapReduce model with Mappers, Reduces, Combiners, Partitioners, and sorting. This framework is depicted in th
The book has a new Web site www.mmds.org. This page will no longer be maintained. Your browser should be automatically redirected to the new site in 10 seconds. The book has now been published by Cambridge University Press. The publisher is offering a 20% discount to anyone who buys the hardcopy Here. By agreement with the publisher, you can still download it free from this page. Cambridge Press d
第1回はこちら 第2回 日時 2010/09/26 19:30 - 21:00? 場所 都内某所 挑戦者 marqs shiumachi 標的 Data-Intensive Text Processing with MapReduce 範囲 3章残り(marqs)4章途中まで(shiumachi) 第3回(take1) 10/3にやるはずだったが、marqs が会場に着いたとたんに(ピー)したので中止 第3回(take2) 日時 2010/10/11 19:30 - 21:00? 場所 都内某所 挑戦者 marqs shiumachi 標的 Data-Intensive Text Processing with MapReduce 範囲 4章残り(shiumachi)5章途中まで(marqs) Data-Intensive Text Processing with MapReduce ch
Neural Information Processing Systems Workshop on Leaning on Cores, Clusters, and Clouds (2010) For large data it can be very time consuming to run gradient based optimizat ion,for example to minimize the log-likelihood for maximum entropy models.Distributed methods are therefore appealing and a number of distributed gradientoptimization strategies have been proposed including: distributed gradien
個人的な興味というより,雑用絡みで眺めた論文の紹介.機械学習アルゴリズムを並列分散化するという話が最近流行っているようだ.全然網羅的ではないけど,誰かの役に立つかも知れないので,幾つかメモしておく.まず古典的にはこれ, Map-reduce for machine learning on multicore (NIPS 2006) 古典的な機械学習アルゴリズム(バッチ学習)の多くは,Statistical Query Model で記述できて,それらは summation form で記述できる (から,MapReduce で並列化できる).実装は Mahout.ただ最近は,バッチアルゴリズムで解ける問題には多くの場合対応するオンラインアルゴリズムが提案されていて,バッチアルゴリズムを並列化することのメリットはあまり無い.オンラインアルゴリズムだとパラメタが連続的に更新されるので,MapR
Since the emerging of Hadoop implementation, I have been trying to morph existing algorithms from various areas into the map/reduce model. The result is pretty encouraging and I've found Map/Reduce is applicable in a wide spectrum of application scenarios. So I want to write down my findings but then found the scope is too broad and also I haven't spent enough time to explore different problem dom
Kyoto CabinetにMapReduceを実装したという話は前回書いたが、そのLuaバインディングでもMapReduceをサポートした。また、Kyoto Tycoonとそのスクリプト言語拡張でもMapReduceをサポートした。今回はその性能について解説する。 ローカルMapReduceのツボ 世に言うMapReduceは分散処理のフレームワークだけれども、KC/KTの「ローカルMapReduce」は分散処理を行わない。分散処理をしなかったらデータ処理能力が上がらないじゃないかと思うかもしれないけれども、そうとも限らないのだ。前回も書いたけども、MapReduceフレームワーク部分をうまく実装すると、時間効率と空間効率の双方を向上させることができる。特にキャッシュとソートの部分に工夫がある。 MapReduceは、リポジトリ内(KCではデータベースファイル内)の各レコードからキーと値
We've got your back )Buyer Protection ProgramWhen you buy a domain name at Dan.com, you’re automatically covered by our Buyer Protection Program. Our unique & carefully designed domain ownership transfer process is the best rated service in the market. Buyer Protection ProgramWhen you buy a domain name at Dan.com, you’re automatically covered by our unique Buyer Protection Program. Read more about
まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed
What are the lab sessions? The lectures focus on concepts and theory, but there's often quite a gap between that and actually getting your code to run. There are a lot of details that are best practiced in a hands-on/tutorial environment with peers. Remember to bring your laptops! The lab sessions will be loosely structured: I will discuss algorithms, share tips and tricks, answer any questi
Amazon Elastic MapReduceの例で出てくるのは今まで見た限りでは、みんなs3n://で始まるS3 Native FileSystem上にファイルを置いている。 http://wiki.apache.org/hadoop/AmazonS3 にあるように、もう一つ s3://で始まるS3 Block FileSystemというのがある。 これまでS3fsって言ってたけどこれはs3-fuseと紛らわしいし、名前として正しくないのでS3 Block FileSystemと呼ぶべきでした。 で、これを使いたい。 メリットは、以下のように理解してる。 ファイルがブロックに分割されるので、通常5GBまでというS3のファイルサイズの制限を超えられる ファイルがブロックに分割されるので、HDFSと同様Hadoopの各jobtaskに処理を効率よく分散できる デメリットは、たぶんこんな感じ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く