タグ

hbaseに関するsbg3のブックマーク (21)

  • HBaseをSQLで操作してみよう(前編)

    はじめに 連載では、ここまでにいくつかのHBaseのユースケースを紹介してきました。RDBとは設計のやり方が違うので、戸惑われた方もいらっしゃると思います。 今回は、HBaseをSQLで操作できるライブラリ「Phoenix」を紹介したいと思います。NoSQLのHBaseをSQLで操作するというと変に聞こえるかもしれませんが、HBaseをRDBのように扱えるのはメリットだと思います。ただし、Phoenixを使ったからといって、HBaseをまったく意識しなくて良いということではありません。 今回のテーマでは、HBase上でどう実現されているかについて着目していきたいと思います。まずは前編ということで、実際にPhoenixを動かしてみましょう。 対象読者 HBaseを使ってみたいけど、どう使ったらよいか分からない方 MySQLなどのRDB以外のデータベースを使ってみたい方 Phoenixとは

    HBaseをSQLで操作してみよう(前編)
    sbg3
    sbg3 2014/02/02
  • http://blog.thisisfeifan.com/2012/06/hbase-thrift-performance-test.html

  • スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w

    Cloudera HBase トレーニング: http://tiny.cloudera.com/jptraininghbase Hadoop Conference Japan 2013 Winter で発表した、HBaseのスキーマ設計に関する資料です。 Cloudera の HBase サポート、Cloudera Enterprise RTD http://tiny.cloudera.com/jpcertdRead less

    スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
  • Lars George HBase Seminar with O'REILLY Oct.12 2012

    2012年10月12日 オライリー社と共催したセミナー HBase出版イベントでのLars Georgeの資料です。Read less

    Lars George HBase Seminar with O'REILLY Oct.12 2012
  • Apache HBase® Reference Guide

    This is the official reference guide for the HBase version it ships with. Herein you will find either the definitive documentation on an HBase topic as of its standing when the referenced HBase version shipped, or it will point to the location in Javadoc or JIRA where the pertinent information can be found. This reference guide is a work in progress. The source for this guide can be found in the _

  • HiveとHBaseの連携は難しい - wyukawa's diary

    Hive 0.11.0にバージョンアップしてmultiple insertに関わるバグである[HIVE-3699] Multiple insert overwrite into multiple tables query stores same results in all tables - ASF JIRAを心配しなくて良くなったけど代わりにネストしたgroup byに関わるバグである[HIVE-5237] Incorrect group-by aggregation in 0.11.0 - ASF JIRAを踏んだwyukawaです、こんにちは。ユニークユーザとか求める時にネストしたgroup byが出てくる可能性はあるのですがcount(distinct ...)とか使って回避しました。 で、今回書くのはそういう話じゃなくてHiveとHBaseとの連携に関してです。結論から言うと結構

    HiveとHBaseの連携は難しい - wyukawa's diary
  • FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)

    Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか? 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ(Jonathan Gray)氏による解説が行われました。 解説はほぼスライドの内容そのままでした。当日使われた日語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか? MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb

    FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)
    sbg3
    sbg3 2013/10/10
  • HBaseでSnappyを使う

    HadoopでGoogle Snappyを使いたい場合は「 hadoop-snappy 」などのサードパーティライブラリを用いることで連携することが可能でしたが、HBaseについてはhfile関連のクラスでsnappyフォーマットに対応する必要があります。 今のcurrent...

  • HBaseを使ってグラフDBを作ってみよう(前編)

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    sbg3
    sbg3 2013/10/03
  • 『HBaseCon2013参加レポート(後編)』

    General Sessionの中で出てきたHBaseエコシステムに触れると、今年のHBaseConのセッションのいくつかを紹介できるのでまずHBaseエコシステムについて書きます。 Hadoopエコシステムの1つとしてHBaseがあるわけですが、そのHBase自身のエコシステムも発展してきています。まず、SQLライクなクエリでHBaseにアクセスできるオープンソースプロダクトとして、ClouderaのImpala、SalesForceのPhoenix、Apache Drillといったものがあります。今回それぞれカンファレンスでセッションがありました。 Impala はデータサイエンティストがHadoop上のデータをインタラクティブに解析できることを目指したクエリエンジンで、HBase・HDFSの両方をサポートしています。高速に動作するようC++で開発されており、クエリがHiveQLがベ

    『HBaseCon2013参加レポート(後編)』
  • 『HBaseCon2013参加レポート(前編)』

    2013年6月13日に開催されたHBaseCon2013に参加してきましたのでレポートさせていただきます。HBaseConは、Apache HBaseの貢献者、開発者、管理者およびユーザのためのコミュニティイベントで、年1回開催されています。 今回はサンフランシスコのマリオット・マーキースホテルが会場で、講演は4トラック構成になっており、参加者は興味のあるものを選択して聴講していきます。 それでは、早速セッションの紹介に移りたいと思います。私は、Facebook、Yahooの中の人のセッションを紹介します。長文ではありますが、とても興味深い内容だと思いますので、是非最後までご覧ください。 HBase use cases at Facebook Liyin Tang, Software Engineer, Facebook & HBase PMC Member Facebookは、大規模なデ

    『HBaseCon2013参加レポート(前編)』
  • 第7回 halookを支える技術「ENdoSnipe」:halookで始めるHadoop/HBaseトラブルシューティング|gihyo.jp … 技術評論社

    このように開発から運用まで幅広い開発工程で利用することを想定しています。 halookはこのENdoSnipeのプラグインとして開発しており、Javelinを拡張してHadoopの情報を取得できるようにしたり、DashboardにHadoop用のビューを追加することで、Hadoopを解析できるようにしています。同様の手法で、他のOSSなアプリケーションやミドルウェアを解析するためのツールも構築することができるでしょう。 Javelin : ENdoSnipeのコア機能 では、どのようにしてENdoSnipeはJavaの内部情報を取得しているのでしょうか。Java内部の情報を取得する方法としては、たとえばスレッドダンプやヒープダンプがあります。これらを取得すれば、Java内部で動いている全てのスレッドの情報やヒープメモリの状況は分かりますが、情報として十分ではありません。たとえば引数や戻り値

    第7回 halookを支える技術「ENdoSnipe」:halookで始めるHadoop/HBaseトラブルシューティング|gihyo.jp … 技術評論社
  • 【デブサミ2013】14-A-2 レポート AmebaのスマートフォンプラットフォームにHBaseを採用した理由、そして得た知見

    サイバーエージェントでは昨年、『デカグラフ』構想のもとにAmebaのスマートフォンプラットフォームをリリースした。この構想を実現するにはユーザー同士のつながりを効率よく管理する必要がある。それを実現するため、採用されたのが列指向分散データベース『HBase』である。なぜHBaseを選んだのか。その開発・運用を通してどんな知見が得られたのか。サイバーエージェントの鈴木俊裕氏が解説した。 大量データの書き込みに最適な『HBase』。RDBとの違いとは 「AmebaにおけるHBaseの導入事例を紹介する前に、まずはHBaseについて簡単に説明したい」──。冒頭でこう切り出したのはサイバーエージェントでHadoopを使ったログ解析基盤およびHBaseをつかった基盤システムの開発・運用を手掛けている鈴木氏である。続けて同氏は「HBaseを使ったことがある方」と参加者に問いかけた。すると手を挙げたのは

    sbg3
    sbg3 2013/05/01
  • 第1回 halookでHadoop/HBaseを可視化しよう | gihyo.jp

    この連載では、HadoopやHBaseのトラブルを解決する手順をご紹介します。第1回目となる今回は、連載のキーとなるツール「halook」を紹介します。「⁠halook」はオープンソースで開発しているHadoop/HBase用の可視化ツールで、トラブルの発生を可視化して把握し、原因究明するために利用できます。まずは「halook」の概要から紹介します。 Hadoop、HBaseの難しさ Hadoopは大量データの保存と分散処理のために、数十台~数千台のマシンを扱います。そのため、何かトラブルがあったときに、どこに原因があるのか突き止めるのが難しい場合が多く、あるいは、そもそもトラブルが起こっていることに気付くのが遅れてしまうこともあります。たとえば、次のような点が挙げられます。 データは正しく分散配置されているか 処理は分散して実行されているか 設定ミスをしていないか 問題の報告の難しさ

    第1回 halookでHadoop/HBaseを可視化しよう | gihyo.jp
  • halook -Hadoop・HBaseの可視化-

    halookとは 大量のサーバで構成されるHadoopクラスタの状態把握にお困りではないでしょうか? halookとは、当社が開発しているWGP、ENdoSnipeを用いて、Hadoop・HBaseの内部を直観的に見える化するツールです。 halookを利用することで、今まで多くの人手と時間が必要だった、問題個所の発見・解決が容易に行えます。 halookでは、HDFSのサーバごとの使用サイズ・空きサイズ、各タスクの状況、HBaseのRegion数などを見える化することができます。 (2012/11/08現在の機能です。) ニュース ■2013/02/05(火) 日経コンピュータにHadoopのシステム開発・運用を容易にする国産OSSツールとして、当社のhalookが紹介されました。 ■2013/01/22(火) 当社の落合が、Hadoop Conference Japan 2013 Wi

    halook -Hadoop・HBaseの可視化-
  • HBaseを触ってみよう

    HBaseは、Googleの基盤ソフトウェアである「Bigtable」のオープンソースクローンであり、大量データに対応した分散ストレージシステムです。HBaseを用いることで、スケーラブルで信頼性のあるデータベースを構築することができます。また、MapReduceを標準でサポートしており、HBaseに保存したデータに対してバッチ処理を行うことも可能です。しかし、SQLで扱えないことや、RDBとのスキーマ設計の考え方の違いなど、とっつきにくい部分が多々あり、戸惑う方が多いように思います。連載では、そういう方々を対象にできるだけ分かりやすく実例を交えながら解説していきたいと思います。 はじめに 近年、「NoSQL」の技術が注目を集めています。NoSQLとは、"Not Only SQL"の略で、SQLを用いないデータベースの総称です。NoSQLというとCassandra、Redis、Mongo

    HBaseを触ってみよう
  • Hadoop/HBaseの内部動作を可視化するソフトウェア「halook」をOSSで公開

    Hadoop内部の負荷状況などをグラフィカルに表示するOSSツールが登場。Javaプログラム解析ツールを流用し、HTML5などを駆使して内部の挙動を可視化する Acroquest Technologyは、2012年11月9日、Hadoop/HBaseの内部動作を可視化するソフトウェア「halook」をオープンソースソフトウェアとして公開した。CDH 3u4、3u5で動作確認済み。 Hadoopは分散処理を行うため、多数のノードを連携して動作する。データの処理が多数のノード、多数のプロセスで実行されるため、処理中に問題が発生した際の調査が非常に困難とされる。halookは、Hadoopシステムにおける障害や稼働状況そのものの可視化を実現している。可視化の対象は、並列処理タスク、Region、データノード。 HDFSのクラスタノード「DataNode」のデータの偏りを可視化する「HDFS Da

    Hadoop/HBaseの内部動作を可視化するソフトウェア「halook」をOSSで公開
  • 第2回NHNテクノロジーカンファレンスでしゃべってきた - たごもりすメモ

    勤務先が主催でNHNテクノロジーカンファレンスという技術者向けイベントをやってるんだけど、その登壇者として社外の誰かから推薦されたらしいので(何故……)、ひとセッションしゃべってきた。なお「HBase at LINE」の発表は「HBaseについて誰かいない?」と主催の伊勢さんに聞かれたのに自分が推薦しました。みんなありがたがるといいよ。 他の人の話も、懇親会でのあれやこれやも大変楽しかった。HBaseなー、火山かー、みたいな。そのうち techblog にまとめエントリが上がるんじゃないでしょうか。それまでこっちでも見ると当日の状況が多少なりわかるかもしれません。 第2回NHNテクノロジーカンファレンス #nhntech まとめ - Togetterまとめ で、自分がしゃべったときのスライドはこちら。(slideshareのembed用タグを埋めてもはてなダイアリーに弾かれてしまう…… 対

    第2回NHNテクノロジーカンファレンスでしゃべってきた - たごもりすメモ
  • livedoor Techブログ : 第2回 NHNテクノロジーカンファレンス 開催ログ

    株式会社データホテルの伊勢です。 2012年8月18日(土)に開催されました 第2回 NHN テクノロジーカンファレンス の発表資料と動画を公開致します。 ご登壇頂きました皆様、ご参加頂きました皆様、どうもありがとうございました。 また、今回「H」な技術と言う事で、オライリー・ジャパン様より「HBase」の書籍をプレゼント頂きました。アレンジしていただいた翻訳者の玉川さん、オライリー・ジャパン様ありがとうございます。 「H」当たった皆様、おめでとうございました。 それでは、以下 第2回テクノロジーカンファレンスの開催ログとなります。 ※ 登壇者の皆様と。左から 田籠氏、井上氏、中村氏、濱野氏、沈 氏、伊勢です。 「HTML5 Animation in Mobile Web Games」(沈 相旻 氏 NHN Korea、 Mobile Ajax チーム) 「日々進化するHadoopの『今

  • 分散データベース「HBase」の安定運用を目指して - Preferred Networks Research & Development

    1年経ってiPhone4の電池がヘタってきた、太田です。 指数関数的にエントリ数が少なくなってきたブログですがw、景気付けのためにエントリを投稿したいと思います!日はHBaseについてです。 Linux と Hadoop と HBase と ZooKeeper に詳しいあなた!あなたがターゲットです。 HBaseとは? HBaseとは、HDFS (Hadoop Distributed File System)上に構築された分散データベースです。大量の非常に細かいデータをリアルタイムに読み書き出来るのが特徴です。最近ではFacebook Messageの基盤技術として使用された事で注目を集めています。 HBase公式サイト Apache HBase ブック 保存されたデータはHDFS上に保存され、HDFSの仕組みによってレプリケーションされるため安全にデータを保持することが出来ます。 ま

    分散データベース「HBase」の安定運用を目指して - Preferred Networks Research & Development