第5回Amazon Redshiftのアーキテクチャ ~スケーリングとリストアを試してみよう 宮崎真,藤川幸一 2013-06-10
![Amazon Redshiftではじめるビッグデータ処理入門 記事一覧 | gihyo.jp](https://cdn-ak-scissors.b.st-hatena.com/image/square/7241c583676d54fc052c4388a6edd25e4c7f280b/height=288;version=1;width=512/https%3A%2F%2Fgihyo.jp%2Fassets%2Fimages%2Fgihyojp-ogp.png)
第5回Amazon Redshiftのアーキテクチャ ~スケーリングとリストアを試してみよう 宮崎真,藤川幸一 2013-06-10
Hadoopすらもかなわない!? Amazon Redshiftの破壊力をHapyrus 藤川氏が語る シリコンバレーで起業し、順調にビッグデータビジネスを展開している日本人ベンチャー企業といえば、Hadoop Conference Japan 2013 Winterでも話題となったTreasure Dataがその筆頭に挙げられます。 ですが、Treasure Dataとほぼ同じ時期に西海岸でビジネスをローンチし、現在、国内外の投資家たちから高い注目をあつめるビッグデータベンチャー、それも日本人技術者が創業者である企業が実はもう1社存在します。それが藤川幸一氏率いるHapyrusです。今回、来日中の藤川氏に直接、Hapyrusが現在最も注力するAmazon Redshiftに関するビジネスを中心にお話を伺いました。 藤川幸一氏 Redshiftへのデータアップロードを事業の中核に ──H
シリコンバレーの投資家からも一目置かれるTreasure Dataの成長を支えているその技術力と経営理念について、Treasure DataのCTOである太田一樹氏が基調講演で語ったその内容をレポートします。 Feature Creepではなく“ナタ”を作る 太田氏をはじめとするTreasure Dataの創業メンバーはいずれもHadoopやmemcached、MongoDBなど、現在のビッグデータブームを支えるオープンソース技術の開発に学生時代から関わっていました。これらのオープンソースプロダクト、とくにHadoopに触れる経験が長かったことが、Treasure Data設立の大きなきっかけになっています。 「Hadoopの登場はこれまで使いづらいだけの存在だった分散システムの世界を大きく変えた。一方で、ユーザ企業がHadoopをデプロイし、運用をはじめても、結局はメンテナンスが大変にな
*トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 前回は Treasure Data Service が生データストレージにあげられているという前提(つまりTreasure Data Service を利用している前提)で,それとBIなどのフロントエンドをシームレスに繋ぐための中間データベースはどれが良いか,という観点でお話しました。そして TQAがどのようなものかを理解し,Redshiftとは立つレイヤーが違うことをわかって頂く事が目的でした。 Treasure Data Service はどのようなケースに向いているか? ここでは視点を変えて,現在保持しているデータの性質を考慮した上で,どのサービス(データベース)を活用したらよいかを考えます。 上図は現在それぞれの企業が持っているデータに対して, データサイズ スキーマ変更可能性
Calling our Presto community speakers – we want to hear from you! Fill out out community call for papers to speak at upcoming meetups and conferences. What is Presto?Presto is an open source SQL query engine that’s fast, reliable, and efficient at scale. Use Presto to run interactive/ad hoc queries at sub-second performance for your high volume apps.
「BigQueryは120億行を5秒でフルスキャン可能」は本当か? 先日、kaheiさんがGoogle BigQuery(Googleクラウドの大規模クエリサービス)について、こんなエントリを書いていた。 とにかくパフォーマンスがすごい。(Fluentd Meetupでの)プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる(これ、記憶がちょっとあいまい。もう少しかかったかも)。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent
米インテルとHadoopのディストリビューションベンダーとして知られる米クラウデラは、インテルがクラウデラへ出資、インテルがクラウデラの戦略的な筆頭株主となることを発表しました。 Cloudera, Intel Commit to Accelerate and Transform How Enterprises Use Big Data; Intel Makes Significant Equity Investment in Cloudera これはインテルにとってデータセンター関連で過去最大の投資。 プレスリリースでクラウデラは次のように記し、同社のHadoopディストリビューションをインテルアーキテクチャへ最適化していくと説明しています。インテルは技術やマーケティングの面でこれを支援していくとのこと。 Cloudera will develop and optimize Cloude
次世代Hadoopの特徴は、 MapReduce 2とGiraph Hadoopの父に聞く、HadoopとClouderaの現在・未来 有限会社オングス 後藤 大地 2011/9/15 ■ 増え続けるHadoop活用企業 大規模データの分析に、Javaのフレームワーク「Apache Hadoop」(以下、Hadoop)を採用する事例が増えている。HadoopはMapReduceの実装系の1つで、特にログデータ解析やリサーチ目的の大規模データ分析や計算などに活用されている。TwitterやFacebook、mixi、LinkedIn、Groupon、Amazon、eBay、Yahoo!、楽天、クックパッド、リクルート、ディー・エヌ・エー、サイバーエージェントなどのいわゆるWebサービス系企業だけでなく、NTTデータ、Amazon Web Services、国立国会図書館、EMC、PFI、ウル
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1
Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向のMapReduceではなく、リアルタイム性に優れた処理が必要になったためだと、次のように説明しています。 Facebook’s warehouse data is stored in a few large Hadoop/HDFS-based clusters. Hadoop MapReduce [2] and Hive are designed for large-scale, reliabl
The Apache Software Foundationは、Hadoopの初めてのメジャーバージョンアップとなる「Apache Hadoop 2」の正式版公開を発表しました。 Hadoopは2004年にGoogleが公開したMapReduceに関する論文を元にオープンソースとして開発されたものでした。Hadoopの開発者であるダグ・カッティング氏は、Hadoop 2のプレスリリースで次のように発言しています。 "What started out a few years ago as a scalable batch processing system for Java programmers has now emerged as the kernel of the operating system for big data," said original Hadoop creator
Treasure Dataのサービスはクラウド上でどう構築されているのか(後編)~July Tech Festa 2013 Treasure Dataといえば、日本人がシリコンバレーで創業したベンチャーとして知られている企業。そのシニアソフトウェアエンジニア中川真宏氏が、7月14日に行われたJuly Tech Festa 2013の基調講演で、同社がクラウド上で構築したサービスについてそのアーキテクチャを中心に解説を行っています。 この記事は「Treasure Dataのサービスはクラウド上でどう構築されているのか(前編)~Japan Tech Festa 2013」の続きです。 データを解析する「Plazma」の仕組み データを解析するところでは「Plazma」と呼ぶ、Hadoopのエコシステムとカラムストアなどを組み合わせたものを用いています。
少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。 近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。 けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない・・・ようにも見える。今日はその辺から少し紹介していこうかなと思う。
Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長 神林飛志氏に、その真意を聞いた。 Hadoop=ビッグデータは大きな誤解 ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」(神林氏)という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。 同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く