create 'sample', 'data' ('a'..'z').each {|i| put 'sample', i, 'data:alpha', i} scan 'samples' ROW COLUMN+CELL a column=data:alpha, timestamp=1333387516755, value=a b column=data:alpha, timestamp=1333387516772, value=b ... 手ごろなfixture作成にはよいが、これで1億件やる気はしない b) importtsv の使い方 既存のインポートツールを利用する方法。 入力データはtsv,csvに限定されるが、hbase.jarに含まれるImportTsvが目的に合致する。 実行にはhbase.jarファイルのフルパスが必要なので、まずはjarをlocateなどで探す。 % lo
Apache HBase vs Apache Cassandra This comparative study was done by me and Larry Thomas in May, 2012. Cassandra stuff was prepared by Larry Thomas. This information is NOT intended to be a tutorial for either Apache Cassandra or Apache HBase. We tried our level best to provide the most accurate information. Please comment or email me if you find any corrections. I would be happy to maintain this l
2010年6月6日日曜日 HBase: Java VM の GC とメモリー関連の設定 Question: Java VM のガベージコレクション(GC)の挙動が、リアルタイム性能に影響を与えたりしないでしょうか? Answer: フルGCの発生や慢性的なメモリー不足などにより、HBase が稼動している Java VM が一時停止すると、DB操作のレスポンス悪化につながります。また、一時停止の時間が数十秒を超えると、そのノードが HBaseクラスターから切り離される(ノードが自主的にシャットダウンする)こともあります。 これらについては、以下の方法で予防できます。 Java VM のガベージコレクタとして、Sun Java 6 の CMS GC(コンカレント マーク&スイープ GC)を選択します。HBase 0.20 以降では、CMS GC はディフォルトで選択されていますので、設定の変
Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか? 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ(Jonathan Gray)氏による解説が行われました。 解説はほぼスライドの内容そのままでした。当日使われた日本語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか? MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb
仕事でぶち当たったので備忘録。 結論としてはHBaseにおける削除というものの概念を取り違えてただけという悲しい結果だったのですが、同じ轍を踏まないようにエントリに残しておきます。 バージョン機能使ってる場合は特に注意したほうがよさそうです。 何があったの? 以下のコマンドをHBase Shellで実行しました。 # (1) hogehogeテーブルのrowkey1で指定される行のcf:cqカラムのバージョン1000をvalue1で更新 put 'hogehoge', 'rowkey1', 'cf:cq', 'value1', 1000 # (2) 検索 scan 'hogehoge' # (3) hogehogeテーブルのrowkey1で指定される行のcf:cqカラムのバージョン1000を削除 delete 'hogehoge', 'rowkey1', 'cf:cq', 1000 # (
Apache HBase 0.92.0がついにリリースされました。 http://www.cloudera.com/blog/2012/01/apache-hbase-0-92-0-has-been-released/ 最近あまりHBaseは触っていなかったのですが、 紹介だけでも。 HBaseなにが変わったか、ざっくりといいますと、 性能(performance)と頑健性(robustness)とロゴ(logo) 性能では、主に以下のような修正があります。 ・HFile v2が導入された ・サーバダウン時のHLog(コミットログみたいなもの:WAL)の分割の分散化 ・テーブル作成やバルクロード、コンパクションなどのマルチスレッド・非同期化 私的には特に、コンパクションが早くなっているのが気になりますね。 コンパクションはMemStoreのフラッシュのたびに増えるStoreFileの集約・
1. 今話題のHadoop HBaseの 性能検証結果と Zabbixによる性能監視のご紹介 日本ヒューレット・パッカード株式会社 テクノロジーコンサルティング統括本部 データセンターソリューション第一本部コアテクノロジー部 石田精一郎 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here 2. お話ししたい内容 • インフラの観点からのHBase • どのように信頼性が確保されているのか • スケールアウトやIOのアーキテクチャ • 性能監視のポイント • 検証の観点とハマりどころ • プロダクトの基本的な特徴、性能特性の確
サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。
Facebook Messageで使われたり、LINEのストレージで使われたり、と事例も多く出てきているHBase(Bは大文字。これ重要)ですが、個人的に少し興味も湧いてきたのでちょっと調べてます。HBaseはLog-Structured Merge-tree (LSM-tree)というアーキテクチャを使っており大量データの書き込みに最適化されています。なので大量の書き込みがあり読み込みは直近のもののみというメッセージ系アプリに向いているんだと思います。 そういえば半額に釣られてManning | HBase in Actionも買ってしまいました。 この本の4章のRow Keyの設計についての話があってそれがちょっと面白かったので関連してRow Keyについて少し書いてみます。 まずHBaseはカラム指向のデータベースと呼ばれますがデータモデルは多次元ソートマップです。 図解すると下記の
Introduction Apache HBase is the Hadoop open-source, distributed, versioned storage manager well suited for random, realtime read/write access. Wait wait? random, realtime read/write access? How is that possible? Is not Hadoop just a sequential read/write, batch processing system? Yes, we’re talking about the same thing, and in the next few paragraphs, I’m going to explain to you how HBase achiev
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く