http://engineering.pinterest.com/post/92742371919/powering-big-data-at-pinterest 1 comment | 0 points | by WazanovaNews ■ comment by Jshiike | 約3時間前 Pinterestもものすごい規模になってきましたね。 1日当たり20TBの新しいデータ。Amazon S3には約10PBが保存されている。 同社ではこのデータの処理にHadoopを利用していますが、 毎日100人以上が、Quoboleが提供するダッシュボードを使って、2,000件以上のジョブを実行。 3,000個のノードで構成される6つのHadoopクラスタを利用。エンジニアは数分で専用のクラスタが立上げ可能。 毎日のログデータは、200億件。約1TBに達する。 このグラフによると、Pinte
Speaking about the buzz around Dataguise’s field-level encryption for Apache Hadoop and their 10 best practices for securing sensitive data in Hadoop, after the break1, you can find the “Hadoop Security Design” paper written by a team at Yahoo. In case you are wondering why some of the post have the “Continue” link, the reason is that they are using embeds and having these on the main page would m
Hadoop Conference Japan 2013 http://hcj2013w.eventbrite.com/ 先週終了。かなりの盛況で終わった感じです。まずは開催をサポートして頂き、相当の負担まで頂いたリクルート・テクノロジー様に感謝申し上げます。どうもありがとうございました。 さて、えっと、前回がそもそもいつだったのか、良く覚えてないわけで。2011 Fallだったような。 http://hadoop-conference-japan-2011-fall.eventbrite.com/ 2011年の9月なので、1年4ヶ月ぶりという感じですね。Track数が増えて2から3で、会場もベルサールからビッグサイトになっていました。人数も1000人超になっております。 以下、感想文です。記録としておいておく感じで。 ・内容で印象に残ったもの ・HBase~LINEのバックボーンで使って
Hadoopはビッグデータ処理の汎用プラットフォームであり、SQLやジョインやトランザクションなどが使えるようになる。Hadoopの生みの親であるダグ・カッティング氏は、都内で開催された日本Hadoopユーザー会主催のイベント「Hadoop Conference Japan 2013 Winter」にビデオメッセージで参加。Hadoopの現在、そして将来像について語りました。 カッティング氏が語ったHadoopの将来とはどんなものなのか。ポイントを紹介しましょう。 バッチ処理を超え続くApache Hadoopの進化 Apache Software FoundationのChairmanでありClouderaのChief Architect、Doug Cutting氏。 今日はみなさんと一緒に参加したかったのですが残念ながらかなわず、このビデオをお送りすることになりました。 MapRedu
Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。 こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop MapReduceのスケーラビリティに限界を感じており、それを解決するための新しいソフトウェア「Hadoop Corona」を開発、オープンソースで公開しました。 Facebookのページ「Under the Hood: Scheduling MapReduce jobs more efficiently with Corona」では、従来のHadoop MapReduceのどこに課題があったのか、4つ
Riding the wave of the generative AI revolution, third party large language model (LLM) services like ChatGPT and Bard have swiftly emerged as the talk of the town, converting AI skeptics to evangelists and transforming the way we interact with technology. For proof of this megatrend look no further than the instant success of ChatGPT, […] Read blog post
2012年の現在、割と悩んでいるのでメモっておく。 年度末ぐらいに再調査の予定。・・なので暫定ですよ。 まず前提として、現行のHadoopの実行フレームワークであるMapReduceは、実行効率は決して良くはないです。この辺が割と辛い。 とはいえ、大規模並列処理を一般的に行うという観点での品質や取り回しを考えた場合、”結果として”非常にバランスがとれており、普及している。その上で、このMapReduceですが、今後の見通しについては、潮流は今のところ二つに割れているよう見える。ので、その辺のメモ。 ■YARN 一つの方向性は、現在のHadoop2.0系で実装されているMapReduce2.0、というか、MapReduceとは別の実行基盤を利用するという方向ですね。すなわちBSPや、MPIを利用する。要は、今までの並列処理の成果をそのまま利用しましょう、という流れに近い。 MapReduce
前置きです。 IT界隈の人とHadoopの話をするとこういうギャップを感じます。 Hadoop使ってみたいところ >>> 実際に使っているところ みんな どう使って、どう収益に結びつけるか 設計、サーバ購入、構築、運用などなどの技術的コスト とか考え始めて止まっちゃいます。たぶん考えるよりTreasureData使ってみたほうが早いです。 そんなの使ってみないとよくわからんからです。 Hadoopガッツリ使ってました!なんて人そうそういないのです。 というわけで問答無用で構築して(そのあたりは前記事)、簡単な管理画面を作ってサービスチームに公開しています。 無料のトライアル版でもけっこう使えますし、気合入れればきっと数日で構築出来ます。 以下はその管理画面についてです。 ポイントはとにかく、『テキトウに作ってさっさと使ってみる』です。 (ちゃんとしたものはそのうちだれかが作ってくれるでしょ
ログの解析は日時でscpでかき集めてバッチ集計してるんだけど リアルタイムで集計したい もっと柔軟に集計したい という人は多いんじゃないでしょうか。 リアルタイム収集はFluentdを使えばいけそうですが、集計部分を柔軟にというとどうだろう。 CookpadやAmebaはHiveを使ってるとの情報がある。 『Hive on AWS @ COOKPAD』 『Amebaのログ解析基盤』 (どっちも古い。HiveはHadoop上でSQL(っぽく)ログ解析するためのプロダクトです) 「面白そうだなー。でもHadoopよくわからん、というかサーバいっぱいいりそうだから承認通すのめんどくさい(´・ω・`)」 とか思ってたらSoftwareDesignの最新号にこんな記事が。 Cookpadの人 「Treasure Dataは...ログ解析用の商用プラットフォームを提供しています。 Fluentd経由で
Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行われたセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 (本記事は「日々進化するHadoop。これまでのおさらいと最近の動向(前編)」の続きです) Hadoopの1.0系と2.0系 Hadoopの開発はかなり活発に進んでいます。 Hadoopでいちばん分からないといわれるのがバージョンで、これは以前からHadoopに接している私たちでもよく分からないくらいです。 Hadoopのバージョンには大きく二系統あって、少し前まで0.20系と呼ばれていたもので、これが現行は1.0系と呼ばれています。もうひとつが0.21、0.22、0.23系と呼ばれていたもの、これがいま2.0系と呼ばれています。 対外的には
http://ascii.jp/elem/000/000/687/687170/ こういう塩梅になった。これでも一応、最初に上がってきたインタビュー記事を訂正して、この状態という感じです。最初のほうはもっと派手だった。まー、さすがに読み手で不快に感じる人もいるだろうし、とはいえ、話したことをつないでいる部分は確かにあるわけで、はてどうしたものかな・・・と思っているうちにリリースになったというのが実態ですね。 えっと、まず読んで不快に思った方は確実にいらっしゃると思うので、その方たちにはお詫び申し上げます。すんませんでした。 その上で真意を書いておくと・・・ まず、Hadoopは統計の基礎を無視しているのか?という問題ですが、基本的にHadoopのBIで飯を食っている人は、いわゆる「データ・サイエンティスト」という職種の人たちにあたる方たちで、当然、統計のプロだ。当たり前の話だが、大抵のHa
Enterprises see embracing AI as a strategic imperative that will enable them to stay relevant in increasingly competitive markets. However, it remains difficult to quickly build these capabilities given the challenges with finding readily available talent and resources to get started rapidly on the AI journey. Cloudera recently signed a strategic collaboration agreement with Amazon […] Read blog p
One of the more confusing topics in Hadoop is how authorization and authentication work in the system. The first and most important thing to recognize is the subtle, yet extremely important, differentiation between authorization and authentication, so let’s define these terms first: Authentication is the process of determining whether someone is who they claim to be. Authorization is the function
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く