Apache Spark Introduction and Resilient Distributed Dataset basics and deep diveSachin Aggarwal
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
The Hadoop Distributed File System (HDFS) offers a way to store large files across multiple machines. Hadoop and HDFS was derived from Google File System (GFS) paper. Prior to Hadoop 2.0.0, the NameNode was a single point of failure (SPOF) in an HDFS cluster. With Zookeeper the HDFS High Availability feature addresses this problem by providing the option of running two redundant NameNodes in the s
ざっと要約すると オンデマンド、アドホックなワークロードはクラウドで動作させると経済合理性が高い。必要なリソースを必要な分だけ利用し、終わったら破棄できるから。(当たり前の話。)そこでポイントになってくるのがAmazon S3やWindows Azure Storage Blobのようなクラウドストレージ。これらのストレージは高い可用性と地理的分散などによるデータ耐久性、マルチテナンシーを持ちながらも経済的な価格で利用できる。クラウド上のデータレイクは間違いなくこれらのクラウドストレージとなる。ということで、クラウドストレージを中心に、その周りにデータ処理のためのクラスタを配置していこうというアーキテクチャが語られている。しかし、ここにはいくつか解決すべき課題がある。 クラウドストレージはFile System APIではなく REST APIで利用する必要がある。当然ローカルにあるHDF
HiveServerはThriftプロトコルをしゃべる*1ので、おなじくThriftで接続すると任意のクエリを発行できたりして大変便利。ということで、やったので、そのメモ。 準備 まずHiveServerだけど、hiveコマンドを叩いてクエリが実行できる状態なら以下のコマンドで起動する。*2 $ hive --service hiveserver ただしあらゆるデータ投入などをThrift経由でやるのは正直めんどくさい。hiveと叩けば起動するHive CLIでもデータ操作はしたい。なので conf/hive-default.xml にMetastoreの設定をする。今回は手元のMySQLに hive データベースを作り、それを使うようにした。このあたりが大変参考になった。 HiveのmetastoreをMySQLを使ってLocal Metastore形式で利用する - blog.kats
At Facebook, we have unique storage scalability challenges when it comes to our data warehouse. Our warehouse stores upwards of 300 PB of Hive data, with an incoming daily rate of about 600 TB. In the last year, the warehouse has seen a 3x growth in the amount of data stored. Given this growth trajectory, storage efficiency is and will continue to be a focus for our warehouse infrastructure. There
以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSporaのブログから発見しましたが、エントリを寄稿したエンジニアの個人ブログも大変興味深いのでオススメです。 はじめにMapReduceを美しく効率的に書くために、私は様々な言語を比較しました。果たしてその勝者は!?私の個人ブログでは統計やグラフのアルゴリズムをMapReduceで記述する方法を紹介し、擬似コードによる実装を示しました。擬似コードには2つの問題点があります:誰もがその命令を理解できると
「BigQueryは120億行を5秒でフルスキャン可能」は本当か? 先日、kaheiさんがGoogle BigQuery(Googleクラウドの大規模クエリサービス)について、こんなエントリを書いていた。 とにかくパフォーマンスがすごい。(Fluentd Meetupでの)プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる(これ、記憶がちょっとあいまい。もう少しかかったかも)。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent
TL; DR: git clone https://github.com/niw/scalding_examples.git ざっとググった感じ、Scalding についてはまだあまり日本語情報なさそうなので、こう広めたりする目的も込めてちょっとまとめておこうと思います。 Scalding とは Scalding とは、Scala に相当入れ込んでる Twitter で使われているライブラリで、Hadoop の MapReduce を Scala で簡単に書けるものです。中身は Cascading をラップしたものになっています。 Scala に相当入れ込んでる Twitter ではしかしながら Pig が頻繁に使われているのですがある方面では Scalding が使われておりまして、Pig と肩を並べられるくらいに使えて、さらに Scala の秘めた力も使えるんだぜ…! と、少なくとも
What is Hadoop? Hadoop is a big data computing framework that generally refers to the main components: the core, HDFS, and MapReduce. There are several other projects under the umbrella as well. For more information, see this interview with Cloudera CSO Mike Olson. What is a Raspberry Pi? The Pi is a small, inexpensive ($39) ARM based computer. It is meant primarily as an educational tool. Is Hado
1979年生れ。2005年よりISP、SIer(NTTデータ先端技術株式会社)2社での勤務を経験後、2010年8月株式会社ライブドア入社(2012年1月NHN Japan株式会社に経営統合後、2013年4月にLINE株式会社へ社名変更)。現在に至るまでライブドアの各サービスにおける稼動状況の把握と可視化などを中心に、サービスをまたいだ観点でのツール整備などを行う。 今回、株式会社ノーチラス・テクノロジーズの神林氏よりご紹介を頂きましたが、どの様な繋がりでしょうか? もともと、現在のLINE株式会社に入社する前からGoogle App Engineを趣味でいじっていた時期があり、その関係のコミュニティなどで、「クラウド」「分散処理」の話があり、Hadoop系の方と勉強会(飲み会含め)で知り合いました。更に現在の業務になってHadoopを集計などで利用することになり、神林さんもノーチラス・テク
最近光麺にハマっている太田です。 グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開 ? Publickeyで紹介されている、並列ログ解析向け言語「Sawzall」を試してみました。動かし方のドキュメントが少なかったので、紹介エントリを書いてみます。 プロジェクトページ ドキュメント Sawzallについては、5年前に論文が発表されており一部概要を知ることは出来ましたが、先日実装がオープンソースで公開されました。論文の第一著者はUNIXやPlan9の開発者で知られるRob Pike氏です。 Interpreting the Data: Parallel Analysis with Sawzall MapReduceのOSS実装として「Hadoop」が良く知られていますが、Hadoop向けの言語としてはHiveやPig等が有名です。 Hive: MapRed
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く