第5回Amazon Redshiftのアーキテクチャ ~スケーリングとリストアを試してみよう 宮崎真,藤川幸一 2013-06-10
第5回Amazon Redshiftのアーキテクチャ ~スケーリングとリストアを試してみよう 宮崎真,藤川幸一 2013-06-10
VMwareのSpringSourceが26日(米国時間)、「Spring for Apache Hadoop 1.0」をリリースした。Spring for Apache Hadoop(以下Spring Hadoop)は、Springフレームワーク向けに開発されたApache Hadoop支援ツール。昨年2月末に1.0.0マイルストーン版を初公開しており、約1年でGA版がリリースされたことになる。 Spring HadoopはSpringやSPring Batch、Spring IntegrationなどからApache Hadoopアプリケーション開発をサポートするために提供されたソフトウェア。SpringのDI(Dependency Injection)やHadoopコマンドラインユーテリティなどを用いることで実現している。アプリケーションの設定や作成には、MapReduceやStre
Hadoopの導入がリクルートの体制を変えた─Hadoop Conference Japan 2013 Winterレポート(4) 1月21日に東京ビッグサイトで1,000名を超える参加者を集めて開催されたHadoop Conference Japan 2013 Winter。基調講演のほか3トラック21講演が行われ、いちオープンソースのユーザカンファレンスのレベルを超えたイベントとなり、成功裏に幕を閉じました。 今回のイベントの成功に大きく貢献した企業がリクルートテクノロジーズです。東京ビッグサイトという大きな会場の提供をはじめ、ノベルティグッズの配布、6種類のメニューから選べる無料ランチの提供など、運営にあたってさまざまな支援を行いました。実行委員としても同社から2名が名前を連ねています。 なぜリクルートテクノロジーズはここまでの支援を行ったのでしょうか。それは同社およびリクルートグル
業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という
Apache Whirr is a set of libraries for running cloud services. Apacheソフトウェアファウンデーションは9月13日(米国時間)、「Apache Whirr」をインキュベータから卒業させトップレベルプロジェクトと認定したことを発表した。「Apache Whirr」はクラウドニュートラルな方法でサービスを実行することを可能にするライブラリセット。多種多様なクラウドプロバイダに対応しており、開発者はWhirrを利用することで下層部分の差異や設定などを意識しなくて済むようになる。 Whirrは、もともと2007年にHadoopプロジェクトの内部プロジェクトとして開発が進められていた。クラスタをより迅速に構築/管理するためのプロダクトで、2010年にはApacheのインキュベータに登録され、今回、トップレベルプロジェクトとして独立して
大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている「Apache Hadoop」。その作者ダグ・カティング(Doug Cutting)さんが「Cloud Computing World Tokyo 2011」&「Next Generation Data Center 2011」において「Apache Hadoop: A New Paradigm for Data Processing」という講演をしていたので聞きに行ってきました。 満員の客席。 皆様を前にして講演できることを大変光栄に思っております。「Apache Hadoop」について皆様に伝えていきますが、これはまさにデータ処理の新たなるパラダイムを提供するものではないかと私は思っております。 まずは簡単に自己紹介をさせていただきましょう。私は25年に渡ってシリコンバレーで仕
Microsoft Corporation MicrosoftのSQL Serverチームは8月25日(米国時間)、「SQL Server」と「Hadoop」を連携させるためのコネクタのコミュニティテクノロジプレビュー版を公開した。同チームは8月8日(米国時間)にSQL ServerとHadoopを連携させるコネクタの提供を開始すると発表していた。近いうちに最初の実装の提供を開始すると説明があったわけだが、実際に発表から17日で、約束通りコネクタの提供が開始されたことになる。 コミュニティテクノロジプレビューとして提供が開始されたのは次の2つのコネクタ。 Hadoop Connector for SQL Server Hadoop Connector for SQL Server Parallel Data Warehouse Microsoftのこの動きはコミュニティやユーザからは多少の
「Apache Cassandra」の商用サービスを提供する米DataStaxは3月22日(米国時間)、Cassandraと「Apache Hadoop」を組み合わせたディストリビューション「Brisk」を発表した。1カ月半後のリリースに向け、ユーザー登録を開始している。 Apache CassandraとApache Hadoopはともに非営利団体Apache Software Foundation(ASF)のオープンソースプロジェクト。Apache Cassandraは元々は米Facebookで開発された技術。オープンソースの分散データベース管理システムで、大規模データ用の拡張性などを特徴とする。一方、Apache Hadoopは米Yahoo!がASFに寄贈した技術で、大規模データ用の分散コンピューティング用ソフトウェアとなる。 DataStaxが発表したBriskは、HadoopとH
米Yahoo!は、大規模データの分散処理を実現するMapReduceをリアルタイムに行うソフトウェア「S4」を、オープンソースとして公開しました。 MapReduceを実行するソフトウェアとして、オープンソースの「Hadoop」がありますが、Hadoopはあらかじめジョブを定義して投入するバッチ処理を前提としていました。 S4は、データをキーとバリューのペアで構成されるストリームデータとして非同期に受け取ることができ、処理結果もキーバリューのペアで構成されたストリームデータとして出力するようになっているとのこと。 この非同期なストリームデータによる入出力が、リアルタイムなMapReduceを実現するフレームワークとしてのS4の特徴といえます。 リアルタイムなMapReduceで何ができる? リアルタイムなMapReduceにはどのような用途が考えられるのでしょうか? S4の公開を表明したY
Hadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010 先週10月12日に、ニューヨークでHadoopのイベント「Hadoop World: NYC 2010」が開催されました。参加者は900名を超えたともいわれ、日本からも30名程度が参加しました。 イベントを主催するClouderaは、Hadoopを開発したDoug Cutting氏らが所属しており、Hadoopの商用利用におけるリーダー的な存在です。そしてこのイベントでClouderaはNTTデータとの提携を発表。両社でアジア太平洋地域と日本でのHadoopビジネスを積極展開することを明らかにしています。 Clouderaとの提携を受け、NTTデータ代表取締役常務執行役員 ソリューション&テクノロジーカンパニー長 CTO 山田伸一氏がHadoop Worldで講演。そ
ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか? 現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。 従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など
見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 8月4日、六本木ミッドタウンのヤフー株式会社にて、今回で2回目となるHadoopをテーマにしたイベント「Hadoop Hack Night Vol.2」が開催された。 Hadoop(ハドゥープ)は、いま注目のクラウドコンピューティングなどに利用されているMapReduce技術が使えるオープンソースソフトウェア。大規模なデータの解析処理などに分散システムを利用したい場合に大きな力を発揮する。 このように注目を集めているHadoopだが、実際に数テラバイト以上といった大容量のデータを処理しなければならないケースはまだそれほど多くない。大きな期待を集めながら「生きた実例」に乏しいのもHadoopをめぐる1つの状況だろう。そこで、今回の「Hadoop Hack Night Vol.2」は「ケーススタディ
大規模分散処理のフレームワークとしてグーグルが開発したMapReduce処理や、そのオープンソース実装であるHadoopが急成長し、ビジネスの分野での商業利用が立ち上がり始めていることは、Publickeyでも何度か記事で紹介してきました。 Hadoopを表計算のように使える「InfoSphere BigInsights」、IBMが発表 グーグルによるMapReduceサービス「BigQuery」が登場。SQLライクな命令で大規模データ操作 Hadoopは企業のための新たな情報分析プラットフォームとなる、とCloudera グーグルがBigQueryの開始を発表し、IBMも大規模処理のエンジンとしてHadoopを採用、AmazonクラウドでもHadoop処理を行う「Amazon Elastic MapReduce」サービスを提供していることから分かるように、Hadoopはクラウドでの大規模
The Apache Hadoop project GoogleはMapReduceに関する特許をUnited States Patent: 7650331として確保している。これに関して、MapReduceに関する実装を行うと、同特許に違反することなるのではないか、と懸念していたプロジェクトがあった。Apache HadoopおよびApacheでMapReduceに関連するソフトウェアを実装しているプロジェクトだ。 Re: License for Google's patentにおいて、Apacheの弁護士であるLarry Rosen氏から、Googleの弁護士から「we have granted a license for Hadoop, terms of which are specified in the CLA.」という返事を得たという内容が伝えられている。Apache Hado
素朴なBigtable、できること できないこと:分散Key-Valueストアの本命「Bigtable」(2)(1/2 ページ) RDBとは別の、クラウド時代のデータベースとして注目を浴びている「分散Key-Valueストア」。その本命ともいえる、Googleの数々のサービスの基盤技術「Bigtable」について徹底解説 あまりにもRDBとは異質な「Bigtable」 前回の「もう1つの、DBのかたち、分散Key-Valueストアとは」では、連載第1回目として、クラウドコンピューティングにおける新しい潮流である「リレーショナルデータベース(RDB)から分散Key-Valueストア(分散KVS)への移行」が、どのようなパラダイムシフトをもたらすのかを解説しました。今回からは、グーグルが運用する代表的な分散KVS「Bigtable」の内部構造を紹介し、クラウドの本質をより深く掘り下げます。 前
ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。 また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。 これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く