[B! cloud][Hadoop] raimon49のブックマーク

raimon49 id:raimon49

cloudとHadoopに関するraimon49のブックマーク (8)

Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表－ Publickey
Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表 Twitterは、自社で運営している大規模なHadoopクラスタをGoogle Cloud Platformへ移行すると発表しました。 A new collaboration with Google Cloud - Twitter Twitterは基本的に自社でデータセンターを保有し運用してきました。2017年1月にTwitterのブログに投稿された記事「The Infrastructure Behind Twitter: Scale」によると、Twitterのデータセンターは5つの大陸にあり、合わせて数十万台のサーバが運用されています。同社が運用しているHadoopクラスタは世界最大級の規模として、以下のように説明されています。 Hadoop: We have
raimon49 2018/05/16
GCE

DC

Hadoop

Twitter

cloud

storage
リンク
「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
raimon49 2017/07/10
MapReduceとHDFS、それぞれのポジショニング。処理エンジン部分のMapReduceはSQLライクな処理エンジンやSparkの登場で役目を終えつつある。

Hadoop

MapReduce

PostgreSQL

Spark

cloud

storage

歴史
リンク
マネージドサービスについて
マネージドサービスについて AWSなどが提供するマネージドサービスを使うかどうかは利用者側の状況にひとえに依存すると思う。まず気にするべきポイントは、マネージドサービスを使うことで得られるメリットを明確にすることだ。一般に、マネージドサービスはインフラストラクチャからよりアプリケーションに近いレイヤ、多くの場合特定のミドルウェアまで、を抱合して提供してくれるため、運用面での負担が減る。できるだけ利用する方がよいと思う。一方で、運用のやり方やスタイルは提供者側の目線にあわせないといけない。ここにギャップが生まれやすい。理由としては、提供者側の気にする点が全体最適化のうえでベストエフォートで提供できるラインはどこか・そのうえで提示できるSLAがどこにあるか、なのに対して、利用者側の気にする点はミクロな視点で特定リソースが安全に継続可能性が十分にある状態で妥当なコストで利用できるか、の違いがあ
raimon49 2016/02/25
AWS

Hadoop

MySQL

cloud

storage
リンク
Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
From Fluentd Meetupに行ってきましたこれを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluentd Meetupのデモでは9億件を7秒程度で検索していたが、BigQueryの真の実力はこれより1〜2ケタ上だからだ。ちょっと手元で少し大きめのテーブルで試してみたら、120億行の正規表現マッチ付き集計が5秒で完了した。論より証拠で、デモビデオ（1分16秒）を作ってみた： From The Speed of Google BigQuery これは速すぎる。何かのインチキである（最初にデモを見た時そう思った）。正規表現をいろいろ変えてみてもスピードは変わらない。つまり、インデックスを事前構築できないクエリに対してこのスピードなのである。価格も安い。さすがに120億行のクエリは1回で200円もかかって気軽に実行できなさそうであるが、1.2億
raimon49 2014/05/20
API

BigQuery

Hadoop

Google

cloud

fluent

performance

plugin
リンク
「オンプレミス・システムの終わり」の始まり〜AWSでのミッションクリティカルシステムの稼働 - 急がば回れ、選ぶなら近道
個人的には割と大変だったので、その辺をまとめておきます。ニュースリリースはこちら。 http://www.nautilus-techno logies.com/topics/20130409.html 要するに本部系バックエンド基幹システムの「一式」のクラウド移行です。完全なミッションクリティカルシステムで、止まった段階で業務に確実に影響が出ます。システムの機能概要 1.売上の確定処理と債権管理 POSデータの直結です。売上確定処理を行います。同時に債権管理も行い、F/Bからの入金データをそのままつなぎ込み、入金処理・債権の消し込み処理を実行します。マッチングは自動処理できるものは処理を行い、ヒューリスティックなものはユーザー判断に従います。 2.仕入・費用の計上と確定処理、および支払いデータの作成費用・在庫の計上確定処理です。当時に支払データの確定処理を行います。EDI（BMS）との
raimon49 2013/04/15
AWS

Hadoop

IT業界

cloud

日本

運用
リンク
NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という
raimon49 2010/09/29
すごいボリューム。

Hadoop

MapReduce

Java

cloud

guideline

NTTデータ
リンク
Amazon MapReduceを使ってPHPで画像処理してみる - ku-sukeのブログ
今日はとある私的なプロジェクトで画像の情報操作が必要になったので、ローカルで計算してもいいんだけど今後もパラメータチューニングで何度か発生しそうなので、AmazonのMapReduceを使ってみました。今回の構成図はこんなかんじ。全部Amazonで全部PHPでやってみた。やろうとおもったきっかけ別に5万枚くらいじゃ実はAmazonじゃなくてもよかったりします。一晩ペチぺーのスクリプトを4〜5本平行で走らせておけば、ローカルのMySQLに結果をためるくらい可能です。でも、今後のために勉強したかった。MapReduceで調べても、Apacheのログとかテキスト操作くらいしか見つからなかったので。データをオンラインに置きたかった・ローカルに置きたくなかった。そうすると、MapReduceするにせよしないにせよS3がよさそうだった。じゃあ、EC2一晩動かすより、MapReduceで一
raimon49 2010/09/19
Hadoop Streaming

Amazon

Hadoop

MapReduce

PHP

cloud

画像処理
リンク
優良企業はなぜHadoopに走るのか
ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する
raimon49 2009/10/16
＞Hadoopにおいては、商用ソフトウェアが開拓した領域をオープンソースが塗り替えていくという、例えばInternet ExplorerをFirefoxが追いかけるような状況とは、まったく正反対の展開をみせているわけである。

Hadoop

MapReduce

OSS

cloud
リンク
1