タグ

ブックマーク / linux.wwing.net (7)

  • Kuduリリース!

    オープンソースの新しいストレージエンジン、Kudu ついに日アナウンスされた Kudu (クドゥ)、次世代ハードウェアにも対応するオープンソースのストレージエンジンです。まだベータ版ですが、3年もの開発期間を経てついに公開されました! Super excited to finally talk about what I've been working on the last 3 years: Kudu! http://t.co/1W4sqFBcyH http://t.co/1mZCwgdOO5 — Todd Lipcon (@tlipcon) September 28, 2015 数日前にリークされた記事に「KuduはHDFSやHBaseを置き換えるものだ」と書かれていましたが、それは間違いです。詳細はFAQなどにも書かれていますが、HDFSとHBaseを補う新しいストレージエンジンです

    Kuduリリース!
    kimutansk
    kimutansk 2015/09/29
    端的に言うと、ハードを有効活用出来るよう最適化したParquetをデフォルトで搭載したストレージエンジン・・てとこなんですかね
  • HBase 0.98でのファイル配置(HDFS)

    3日目です。 HBaseのバイブルとなっている、オライリーから出版されている書籍、HBase。(通称馬)。個人的には象よりも愛用している(せざるを得ない)素晴らしいですが、出版されてから2年が過ぎ、現在のバージョンとは違っているところも増えてきました。 馬2版発売決定? 幸いな事に、現在第2版が執筆中のようで、O’Reillyのサイトによると来年5月ぐらいに発売される予定とのこと。(ちなみに、Hadoop 4版(象)も来年の春とのことで、こちらは既に先行発売されています。Apache Sparkのチャプターも追加されていました)。日語版が楽しみですね。 しかし悠然と待ってはいられないので、HBase 0.98.1 を用いてHBaseのルートディレクトリ以下の情報をまとめてみました。(馬のP.343付近に記載されているものと同じです)。出版されるまでの短い期間は役立つかもしれま

    HBase 0.98でのファイル配置(HDFS)
    kimutansk
    kimutansk 2014/12/04
    カラム部分などの基本構成は変わっていませんが、ディレクトリ構成は更新されているというわけですかね。
  • 2014年の象(Hadoop)四方山話

    Spark, SQL on Hadoop etc. Advent Calendar 2014 1日目、およびHadoop関連(全部俺) Advent Calendar 2014の1日目です。 初日なので、昨年ブログに続いて2014年のHadoop関連の話題をまとめます。 ※このブログの内容は所属している組織には関係なく、個人的な雑感です。間違いがあればご指摘下さい。 ※なお、中立的に書いているつもりですが、多少偏りがあるかもしれません。が、特に悪意はありません :p 俺的Hadoopの話題2014: ベスト3 Apache Sparkの盛り上がりが加速 SQL on Hadoop は混沌 Hadoopは堅調に進化。徐々に消えていく!? (次点: Hueも大幅に進化してますが、これはいずれ紹介します) 1. Apache Sparkの盛り上がりが加速 今年になってますます盛り上がっているAp

    2014年の象(Hadoop)四方山話
    kimutansk
    kimutansk 2014/12/02
    Sparkの盛り上がり/SQL on Hadoop乱立/裏でHadoopは堅実に進化、と。Hadoopは最早前提になりつつある、という感じですかね。
  • Cloudera ImpalaとCatalog Serviceの話

    Impalaのメタデータ ImpalaはHiveと共通のメタストアを使用しています。従来、メタデータが変更された場合には、Impalaで”invalidate metadata/refresh”コマンドを使用して変更を認識する必要がありました。Impala 1.2.Xから管理方法が変更となり、メタデータの変更を管理するサービス、Catalog Serviceが登場しています。 Catalog Serviceはメタデータの管理を行う中央型のサービスです。Catalog Serviceはメタデータの更新を処理し、クラスタの全てのImpaladノードに対してどのメタデータの変更が行われたのかをStateStore経由で送信します。 このサービスにより、Impalaによって行われたメタデータの変更は”invalidate metadata”コマンドを実行することなく、全てのノードで自動的に認識され

    Cloudera ImpalaとCatalog Serviceの話
    kimutansk
    kimutansk 2014/11/07
    Catalog Serviceはメタデータの更新に自動的に追従するためのもの、と。意外にこのあたりのサービス構成内訳って見当たらないんですよね。
  • CDHとApache Spark

    CDH(Cloudera’s Distribution including Apache Hadoop)にApache Sparkが仲間入り 日Clouderaから公開されたプレスリリース(英語)によると、ClouderaとDataBricksがパートナー提携し、CDHにApache Sparkがサポートされるようになるとのことです。 (更新)日語のプレスリリースが出ています。 Cloudera、新たなパートナープログラムCloudera Connect:Innovatorsを発表 〜ハイスピードデータアナリティクスのためDatabricks社とタイアップし、Sparkをサポート〜 Apache SparkはMapReduceを使用せずに分散処理を行う仕組みです。詳しい資料(Spark/Shark)が @oza_x86さんから公開されています。 この資料をご覧になれば、下記は読む必要あ

    CDHとApache Spark
    kimutansk
    kimutansk 2013/11/02
    Shark on SparkとImparaの端的な違いとして、「ImapalaはHDFS/HBase上で動作するクエリエンジン」というのはわかりやすいですねぇ。
  • HDFSのショートサーキット雑感

    HDFSのShort-Circuit Local Readについてのブログ記事を読んで 先週お盆休みに公開されたブログ、「How Improved Short-Circuit Local Reads Bring Better Performance and Security to Hadoop」には興味深い内容が書いてあります。これは必読では?と思ったので、少しまとめてみます。 元々の処理 クライアントがHDFSからデータを読み出す場合、データノードとのネットワーク通信が発生します。これはシンプルですが、カーネル内でTCPソケットを保持しておくなどのオーバヘッドがかかります。(ブログ中の最初の図) Short-Circuit Local Reads with HDFS-2246 このチケットでの改善は、クライアントとデータノードが同一マシンの場合、直接ローカルファイルシステムからデータを読

    HDFSのショートサーキット雑感
    kimutansk
    kimutansk 2013/08/20
    他のOSSでも似たような機能を見かけることはありますが、案の定というかHDFSにもありましたか。
  • impala速攻レビュー!!

    米国で開催されている Strata Conf + Hadoop World 2012 で、ついに Cloudera Impala(Public Beta) が発表されました! Impalaとは? Cloudera Impala (http://www.cloudera.com/content/cloudera/en/products/cloudera-enterprise-core/cloudera-enterprise-RTQ.html)はオープンソースのソフトウェアで、一言で言えばリアルタイムクエリエンジンです。Hiveを使っている方やSQLに馴染んでいる方には利用し易いSQLライクなHiveQLを利用して、数秒でHDFSまたはHBaseに格納されたデータを照会できます。 ImpalaはApache HiveのメタデータやHiveQL、ODBCドライバ、Beeswaxを利用します。Hi

    impala速攻レビュー!!
    kimutansk
    kimutansk 2012/10/25
    リアルタイムクエリエンジン・・と。MapReduceでなくDrillに近いようなノリですねぇ
  • 1