第5回Amazon Redshiftのアーキテクチャ ~スケーリングとリストアを試してみよう 宮崎真,藤川幸一 2013-06-10
第5回Amazon Redshiftのアーキテクチャ ~スケーリングとリストアを試してみよう 宮崎真,藤川幸一 2013-06-10
Hadoopすらもかなわない!? Amazon Redshiftの破壊力をHapyrus 藤川氏が語る シリコンバレーで起業し、順調にビッグデータビジネスを展開している日本人ベンチャー企業といえば、Hadoop Conference Japan 2013 Winterでも話題となったTreasure Dataがその筆頭に挙げられます。 ですが、Treasure Dataとほぼ同じ時期に西海岸でビジネスをローンチし、現在、国内外の投資家たちから高い注目をあつめるビッグデータベンチャー、それも日本人技術者が創業者である企業が実はもう1社存在します。それが藤川幸一氏率いるHapyrusです。今回、来日中の藤川氏に直接、Hapyrusが現在最も注力するAmazon Redshiftに関するビジネスを中心にお話を伺いました。 藤川幸一氏 Redshiftへのデータアップロードを事業の中核に ──H
シリコンバレーの投資家からも一目置かれるTreasure Dataの成長を支えているその技術力と経営理念について、Treasure DataのCTOである太田一樹氏が基調講演で語ったその内容をレポートします。 Feature Creepではなく“ナタ”を作る 太田氏をはじめとするTreasure Dataの創業メンバーはいずれもHadoopやmemcached、MongoDBなど、現在のビッグデータブームを支えるオープンソース技術の開発に学生時代から関わっていました。これらのオープンソースプロダクト、とくにHadoopに触れる経験が長かったことが、Treasure Data設立の大きなきっかけになっています。 「Hadoopの登場はこれまで使いづらいだけの存在だった分散システムの世界を大きく変えた。一方で、ユーザ企業がHadoopをデプロイし、運用をはじめても、結局はメンテナンスが大変にな
Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」。Google I/O 2014 大規模分散処理のフレームワークとしてGoogleが開発し、Hadoopに採用されて広く使われているMapReduce。しかしGoogleはもうMapReduceを使わず、より優れた処理系の「Google Cloud Dataflow」を使っていることが、Google I/O 2014の基調講演で明らかにされました。 GoogleのシニアバイスプレジデントUrs Hölzle氏は、「エクサバイトのスケールまで扱え、パイプライン処理を記述しやすく最適化もしてくれる。それにバッチもリアルタイム分析も同じコードで記述できる」と、Cloud Dataflowの特長を説明します。 Google I/Oの
From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluentd Meetupのデモでは9億件を7秒程度で検索していたが、BigQueryの真の実力はこれより1〜2ケタ上だからだ。ちょっと手元で少し大きめのテーブルで試してみたら、120億行の正規表現マッチ付き集計が5秒で完了した。論より証拠で、デモビデオ(1分16秒)を作ってみた: From The Speed of Google BigQuery これは速すぎる。何かのインチキである(最初にデモを見た時そう思った)。正規表現をいろいろ変えてみてもスピードは変わらない。つまり、インデックスを事前構築できないクエリに対してこのスピードなのである。 価格も安い。さすがに120億行のクエリは1回で200円もかかって気軽に実行できなさそうであるが、1.2億
米インテルとHadoopのディストリビューションベンダーとして知られる米クラウデラは、インテルがクラウデラへ出資、インテルがクラウデラの戦略的な筆頭株主となることを発表しました。 Cloudera, Intel Commit to Accelerate and Transform How Enterprises Use Big Data; Intel Makes Significant Equity Investment in Cloudera これはインテルにとってデータセンター関連で過去最大の投資。 プレスリリースでクラウデラは次のように記し、同社のHadoopディストリビューションをインテルアーキテクチャへ最適化していくと説明しています。インテルは技術やマーケティングの面でこれを支援していくとのこと。 Cloudera will develop and optimize Cloude
次世代Hadoopの特徴は、 MapReduce 2とGiraph Hadoopの父に聞く、HadoopとClouderaの現在・未来 有限会社オングス 後藤 大地 2011/9/15 ■ 増え続けるHadoop活用企業 大規模データの分析に、Javaのフレームワーク「Apache Hadoop」(以下、Hadoop)を採用する事例が増えている。HadoopはMapReduceの実装系の1つで、特にログデータ解析やリサーチ目的の大規模データ分析や計算などに活用されている。TwitterやFacebook、mixi、LinkedIn、Groupon、Amazon、eBay、Yahoo!、楽天、クックパッド、リクルート、ディー・エヌ・エー、サイバーエージェントなどのいわゆるWebサービス系企業だけでなく、NTTデータ、Amazon Web Services、国立国会図書館、EMC、PFI、ウル
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向のMapReduceではなく、リアルタイム性に優れた処理が必要になったためだと、次のように説明しています。 Facebook’s warehouse data is stored in a few large Hadoop/HDFS-based clusters. Hadoop MapReduce [2] and Hive are designed for large-scale, reliabl
The Apache Software Foundationは、Hadoopの初めてのメジャーバージョンアップとなる「Apache Hadoop 2」の正式版公開を発表しました。 Hadoopは2004年にGoogleが公開したMapReduceに関する論文を元にオープンソースとして開発されたものでした。Hadoopの開発者であるダグ・カッティング氏は、Hadoop 2のプレスリリースで次のように発言しています。 "What started out a few years ago as a scalable batch processing system for Java programmers has now emerged as the kernel of the operating system for big data," said original Hadoop creator
Treasure Dataのサービスはクラウド上でどう構築されているのか(後編)~July Tech Festa 2013 Treasure Dataといえば、日本人がシリコンバレーで創業したベンチャーとして知られている企業。そのシニアソフトウェアエンジニア中川真宏氏が、7月14日に行われたJuly Tech Festa 2013の基調講演で、同社がクラウド上で構築したサービスについてそのアーキテクチャを中心に解説を行っています。 この記事は「Treasure Dataのサービスはクラウド上でどう構築されているのか(前編)~Japan Tech Festa 2013」の続きです。 データを解析する「Plazma」の仕組み データを解析するところでは「Plazma」と呼ぶ、Hadoopのエコシステムとカラムストアなどを組み合わせたものを用いています。
Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長 神林飛志氏に、その真意を聞いた。 Hadoop=ビッグデータは大きな誤解 ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」(神林氏)という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。 同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ
少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。 近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。 けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない・・・ようにも見える。今日はその辺から少し紹介していこうかなと思う。
概要 ここしばらく某社でデータの解析基盤を構築する仕事に携わっています。一からの構築になるので打てる手が多く楽しい一方で、適切な判断を下すのは難しいと実感しています。 解析基盤というのはもちろん解析を行うためのものですので、どう解析を行うかによってどういう基盤を構築していけばよいかが決まります。 ところで、データ(構造や収めているDBなども含めて)というのは寿命の長いもので、初期の設計を間違えてしまうと、その時点で戦略的な敗北は決まってしまいます。その後は運用しながら変更可能なところでゲリラ的に対応していくしか手を打てません。 そのため、実際に構築を行う前に、求められている解析がどのようなものかを十分に吟味した上で、適切なハードウェア、ミドルウェア、データ構造を選択し基盤を構築していくことが大変重要です。 着目すべき点 では解析のどのような点に着目すればよいかというと、私は次の5点を考えて
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く