[B! MapReduce] syuu256のブックマーク

TwitterがMapReduceストリーミングフレームワークSummingbirdをオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

syuu256 2014/01/28

リンク

試すのが難しい―機械学習の常識はMahoutで変わる

ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop（以下、Hadoop）の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」（以下、Mahout）です。本稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。そもそも、機械学習とは？機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ（すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ）、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。機械学習をビジネスに活用した例は、レコメンド（ユーザーや商品

syuu256 2014/01/07

リンク

Cloudera impalaの性能評価（Hiveとの比較）

Hadoop MapReduceの処理速度より1桁速いと聞いて、早速自前のクラスタ環境で評価しました。

syuu256 2013/12/16

リンク

AWSのAmazon Elastic MapReduce(EMR)でHiveを使う手順 | takemikami's note

自前でHadoopをインストールせずとも、 AmazonWebService(AWS)で手軽にHadoopを利用する事ができるということで、 Elastic MapReduce(EMR)環境でHiveを利用してみました。ここでは、以下のような手順でHiveを利用する手順を示します。 S3にHive用のbucketを作成Amazon Elastic MapReduce Ruby ClientのセットアップS3にデータを配置HiveインタラクティブモードでElastic MapReduceを起動作成したHiveスクリプトをバッチ処理で実行S3にHive用のbucketを作成Hive用のデータを保存するため、S3にbucketを作ります。「AWS Management Console」でS3を選び、「Buckets」の「Create Bucket」を選択して、「Bucket Name」を

syuu256 2013/12/04

リンク

Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると

Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向のMapReduceではなく、リアルタイム性に優れた処理が必要になったためだと、次のように説明しています。 Facebook’s warehouse data is stored in a few large Hadoop/HDFS-based clusters. Hadoop MapReduce [2] and Hive are designed for large-scale, reliabl

syuu256 2013/11/08

リンク

Apache Sparkってどんなものか見てみる（その１ - 夢とガラクタの集積場

こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、とりあえず資料や論文を読んでみることにしました。まず見てみた資料は「Overview of Spark」（http://spark.incubator.apache.org/talks/overview.pdf）です。というわけで、読んだ結果をまとめてみます。 Sparkとは？高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは？以下の2つの解析ユースケースにより適合するようMapReduceを拡張

syuu256 2013/09/03

リンク

CentOSでHadoopを使ってみる - Y's note

__ __ __ / / / /___ _____/ /___ ____ ____ / /_/ / __ ‘/ __ / __ \/ __ \/ __ \ / __ / /_/ / /_/ / /_/ / /_/ / /_/ / /_/ /_/\__,_/\__,_/\____/\____/ .___/ /_/ インストール hadoopをcentosに入れてみる。最新バージョンは2011/11/25日の段階では0.23.0 各Linuxディストリビューションに対応済みのcdh3(Cloudera Distribution including Apache Hadoop v3)を入れる。cdh3の最新バージョンは0.20.0 hadoopの他に愉快な仲間達のhive,pig,hbaseも入れる。 jdkのインストール hadoopはjavaで動くので当然必要となる。既にインストール済みの場

syuu256 2013/06/06

リンク

Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開

Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop MapReduceのスケーラビリティに限界を感じており、それを解決するための新しいソフトウェア「Hadoop Corona」を開発、オープンソースで公開しました。 Facebookのページ「Under the Hood: Scheduling MapReduce jobs more efficiently with Corona」では、従来のHadoop MapReduceのどこに課題があったのか、4つ

syuu256 2012/11/13

リンク

MapReduceは今後どうなるのか？ - 急がば回れ、選ぶなら近道

2012年の現在、割と悩んでいるのでメモっておく。年度末ぐらいに再調査の予定。・・なので暫定ですよ。まず前提として、現行のHadoopの実行フレームワークであるMapReduceは、実行効率は決して良くはないです。この辺が割と辛い。とはいえ、大規模並列処理を一般的に行うという観点での品質や取り回しを考えた場合、”結果として”非常にバランスがとれており、普及している。その上で、このMapReduceですが、今後の見通しについては、潮流は今のところ二つに割れているよう見える。ので、その辺のメモ。 ■YARN 一つの方向性は、現在のHadoop2.0系で実装されているMapReduce2.0、というか、MapReduceとは別の実行基盤を利用するという方向ですね。すなわちBSPや、MPIを利用する。要は、今までの並列処理の成果をそのまま利用しましょう、という流れに近い。 MapReduce

syuu256 2012/10/09

リンク

MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。そこで今回は、（何番煎じか分かりませんが自分の理解のためにも）この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form（足し算で表現できる形）になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

syuu256 2012/05/29

リンク

PHP と MySQL でカジュアルに MapReduce する

PHP と MySQL で 1 カチャカチャカチャ...ッターン！ MapReduce (@ニコニコ超会議)Yuya Takeyama

syuu256 2012/03/27

MapReduce

リンク

Apache Spark™ - Unified Engine for large-scale data analytics

Apache Spark™ is a multi-language engine for executing data engineering, data science, and machine learning on single-node machines or clusters.

syuu256 2012/03/08

リンク

MapReduceのパターン、アルゴリズム、そしてユースケース - きしだのHatena

Ilya Katsov氏による「MapReduce Patterns, Algorithms, and Use Cases」の翻訳 http://highlyscala ble.wordpress.com/2012/02/01/mapreduce-patterns/ (下書きに入れて推敲するつもりが、なんか公開されてしまっていたので、あとでいろいろ修正すると思います) February 1, 2012 この記事では、Webや科学論文で見られる異なるテクニックの体系的な視点を与えるために、数々のMapReduceパターンとアルゴリズムをまとめた。いくつかの実用的なケーススタディも提供している。すべての説明とコードスニペットでは、Mapper、Reducer、Combiner、Partitionaer、ソーティングにおいてHadoopの標準的なMapReduceモデルを利用します。このフレー

syuu256 2012/02/24

MapReduce

リンク

Hadoop＋Hive検証環境を構築してみる

Hadoop＋Hive検証環境を構築してみる：Hive――RDB使いのためのHadoopガイド（前編）（1/3 ページ） Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。

syuu256 2011/09/05

リンク

老人とMapReduce - としの今日でき

若人: 我々は、超並列計算のフレームワークとしてMapReduceを実装し運用に成功した。 1000台のコンピュータで、1TBのデータ処理が68秒でできるんだ! これは、有史以来の快挙だ、どんなもんだい![6] 翁: あ～、水を差して悪いんだけどねえ、MapReduceなんて技術はねえ、我々データベースの専門家が40年も前から研究しておるんよ。それに、MapReduceと同等の分散データベースのSQLエンジンも商用化されているし。こんな事は、データベース研究分野の論文に全部発表されているよ。君たちコンピュータサイエンティストは、人の論文を読まんからな、困ったもんだ。それにMapReduceは、我々先達の知恵を活かしとらん! 若人: MapReduceに何か問題がありますか? 超簡単に並列アプリが開発でき、自動実行できるんですよ、こんなんシステム今までに無いし、快挙でしょ! 翁: そ