
Hbase勉強会のまとめの延長として 今後の考え方をまとめておきます。 まずは前提として <一般論> Hbaseにかぎらず、NoSQL系一般に言えることではあるが Usecaseを意識して利用する事が必要だ、ということだと思う。 最近の傾向としては、Googleでも顕著だけど、 一定の用途をターゲットにして 特定のミドルを開発するという方法が結構多い。 Hbaseもその流れはあるので、 そのあたりは意識する必要はあるかもしれない。 Hbaseついては、注目するとすればFacebookになるかな。 http://www.cloudera.com/resource/hw10_hbase_in_production_at_facebook いずれにしても、割とうまくいっているUsecaseの情報の有用性は 他の技術よりも高いと思う。 基本的に単純に分散KVSを使いたいならHbaseにこだわる必要
Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookがまたやってくれた。彼らは巨大なリアルタイムデータのストリームを処理するもう1つのシステムを構築したのだ。以前にもFacebookはリアルタイムなメッセージシステムをHBaseで構築している(http://highscalability.com/blog/2010/11/16/facebooks-new-real-time-messaging-system-hbase-to-store-135.ht
HBaseとCassandra討論会のつっこみー。 (豊月) 2010-11-08 10:51:55 >HBaseはキーが偏ると一部のノードだけに負荷がかかる これは「Cassandraは、キーが偏ると一部のノードだけに負荷が掛かる」です。 HBaseの場合は、リージョンファイル毎に分散させているので、リージョンファイルの指定サイズを越えてまで大きくなったら自動で分割されて、別のノードへ移ります。 Cassandraの場合、キーのハッシュを元に担当を決めるので巧くキーの生成ルールを考えないと特定ノードに負荷が集中する事になります。 >「このトークンはこのリング」 「Ring上で、このTokenはこのノード」という情報を管理している、が正しいです。 >Cassandraは構築は楽だが、故障時が面倒(リバランスに時間がかかる) Cassandraに於いて面倒なのは、故障時じゃないです。 故障後
We are excited to announce the acquisition of Octopai, a leading data lineage and catalog platform that provides data discovery and governance for enterprises to enhance their data-driven decision making. Cloudera’s mission since its inception has been to empower organizations to transform all their data to deliver trusted, valuable, and predictive insights. With AI and […] Read blog post
Effective Practices for Coding with a Chat-Based AI In this article, we explore how AI agents are reshaping software development and the impact they have on a developer’s workflow. We introduce a practical approach to staying in control while working with these tools by adopting key best practices from the discipline of software architecture, including defining an implementation plan, splitting ta
YDN Hadoop and Distributed Computing at Yahoo! Pig, Cascalog & HBase Among Highlights of May Hadoop Meet-Up Hi Hadoopers Thanks to close to 300 developers who came this week to Yahoo! for our monthly Hadoop User Group meeting. The energy in the packed room was phenomenal and conversations continued long after the formal sessions. Hundreds of Hadoop Fans Flock to Yahoo! for the May Hadoop User Grou
We are marching along in our integration of HBase with the Socorro Crash Stats project, but I wanted to take a minute away from that to talk about a separate project the Metrics team has also been involved with. Mozilla Labs Test Pilot is a project to experiment and analyze data from real world Firefox users to discover quantifiable ways to improve our user experience. I was very interested and e
Cosmin Lehene wrote two excellent articles on Adobe's experiences with HBase: Why we’re using HBase: Part 1 and Why we’re using HBase: Part 2. Adobe needed a generic, real-time, structured data storage and processing system that could handle any data volume, with access times under 50ms, with no downtime and no data loss. The article goes into great detail about their experiences with HBase and t
-Patterns From Shared-All to Shared-Nothing Successfully used Patterns in application and table design with Hbase Bob Schulze, eCircle AG March 2010 @ Berlin Apache Hadoop Get Together -Patterns Audience ➲ You have Big Data ➲ Your Organization needs predictable scaling options ➲ You need to be flexible with your Data ➲ You are a Techie Person -Patterns Content ➲ What is shared? ➲ Recap RDBMS vs HB
Pigってのは,googleで言うところのsawzallに対応するようです.が,ちょっと見たところでは,Sawzallどころではなくて,もっと意欲的です.Sawzallは,MapReduce処理モデルに思い切り引っ張られているけど,Pigは,リレーショナル演算をHadoop::MapReduce上の処理に変換しようという割と壮大な試み.Hadoopは利用しているけども,完全に別プロジェクトでやっています.yahooで作られていたものをオープンソースにしましたということですね. たとえば,下のように書くことができるような言語になっています. VISITS = load '/visits' as (user, url, time); USER_VISITS = group VISITS by user; USER_COUNTS = foreach USER_VISITS generate gr
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く