Cassandra's AntiEntropy service uses Merkle trees to detect the inconsistencies in data between replicas. Merkle tree is a hash tree where leaves contain hashes of individual data blocks and parent nodes contain hashes of their respective children. It provides an efficient way to find differences in data blocks stored on replicas and reduces the amount of data transferred to compare the data block
Cassandraのクラスタ環境を構築して、DataStax OpsCenterでデータの管理ができるようにします。 Cassandraの設定方法のサンプルを載せているblogなどは沢山あるのですが、旧バージョンのCassandraを試している記事が多くて、頻繁にバージョンアップするCassandraに情報が追いついていません。 ここでは、新しくCassandraを試してみたい方に参考になればと考えて記事を書きました。 また、DataStax OpsCenterというツールを利用して、データの可視化にも挑戦しています。 Cassandraとは 公式ページ:http://cassandra.apache.org 正式名称はApache Cassandraです。 Wikiより引用 『Cassandraは、非常に高いスケーラビリティーを持ち、イベンチュアルコンシステントな分散システム構造のKVS
乗るしか無い、このビッグウェーブに。 (このエントリとこのエントリの三番煎じです。) - 追記 Cassandraはデータ領域のDisk使用量が50%でクリティカルと記載しましたが、いきなりズドンと落ちるとかでは無く、compactionを実行した時にテンポラリーファイル作成します。これは対象のSSTableのサイズに依存します。で、このテンポラリーファイルが作成できなくなる可能性がある閾値が50%です。 http://wiki.apache.org/cassandra/CassandraHardware_JP から引用 MemtableSSTableで述べているように、コンパクションは最悪の場合、一時的にひとつのボリューム(つまりデータディレクトリ)に対して最大そのデータと同じだけの空き領域を要求します。 - まずCassandraでDisk空き領域が減少する可能性があるのはほぼ2つ。ア
Introduction Cassandra is a partitioned row store, where rows are organized into tables with a required primary key. The first component of a table's primary key is the partition key; within a partition, rows are clustered by the remaining columns of the PK. Other columns may be indexed independent of the PK. This allows pervasive denormalization to "pre-build" resultsets at update time, rather th
NoSQLの代表的なデータベースであるCassandraの新バージョン「Cassandra 1.1」がリリースされたと、The Apache Software Foundationが発表しました。2011年10月に最初の正式バージョンであるCassandra 1.0がリリースされてから半年で、Cassandra 1.1の登場となります。 The Apache Software Foundation Announces Apache Cassandra™ v1.1 : The Apache Software Foundation Blog CassandraはオープンソースによるNoSQLデータベースで、分散処理に対応したスケーラブルな構造を備え、単一障害点(Single Point of Failer:SPOF)がなく、ノードを追加していくことで自動的に性能が向上していくという特徴を備えて
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
本書は、NoSQLミドルウェアの代表格であるCassandraについて包括的に解説する書籍です。Cassandraの概要、インストール、データモデル、データの読み込みと書き込みなどの基礎から、モニタリングやメンテナンス、パフォーマンスチューニングなど、実践的な事柄までをサンプルコードを多用して詳しく解説します。さらに、Hadoopとの連携や、Cassandra以外の非リレーショナルデータベースについてもカバーしています。日本語版では、正式リリースされた1.0の基盤であるバージョン0.8を中心に新機能についても収録。Cassandraに関心のある開発者、運用管理者に必携の一冊です。 目次 序文 はじめに 1章 Cassandraとは 1.1 リレーショナルデータベースの何が問題なのか? 1.2 リレーショナルデータベースの簡単な復習 1.2.1 RDBMS:よい点、よくない点 1.2.2 W
RackspaceのEric Evans氏がCassandraのメーリングリストに投稿した内容によると、Cassandra 0.8の最大の特徴は、SQLに似た問い合わせ言語のCQL(Cassandra Query Language)をはじめて搭載したこと。 また、これまで要望の多かった分散カウンターを実装し、ノード間の暗号化通信を実装したことでパブリッククラウドなどの環境でのセキュリティが高まったとしています。 CQL 1.0では、USE、SELECT、UPDATE、DELETE、TRUNCATE、DROP、BATCHなどのキーワードを備えており、SQL文のようにデータベースの内容を操作できるとのこと。Python、Java、Node.js用のドライバーが提供されています。 CQLについては、第16回Cassandra勉強会での@yukim氏の資料「CQL」が公開されています。分かりやすく
クラウド時代の新しいデータベースとして、非リレーショナルな構造を持つNoSQLデータベースが話題になっています(NoSQL=Not Only SQL。命名の経緯はこちら)。そのNoSQLの中で、もっとも注目されているデータベースの1つがApacheのCassandraです。 Cassandraは、Facebookで大規模データ処理のために開発され、その後オープンソースとなり、現在ではApache Software Foundationのプロジェクトとして開発されています。 現在、CassandraはFacebookやDiggなどで使われている、もしくは使うことが検討されているとされ、Twitterでも(ツイートデータの格納には使われないようですが、それ以外の用途で)利用されています。 TwitterとDiggがNoSQLの「Cassandra」を選ぶ理由 Twitterが、Cassandr
先週後半ぐらいから、Cassandra関連で色々動きがあったので、まとめておきます。 一番注目されるTwitterのCassandraへの方針ですが、Twitterのエンジニアリングブログの記事で明らかにされています。 We're using Cassandra in production for a bunch of things at Twitter. A few examples: Our geo team uses it to store and query their database of places of interest. The research team uses it to store the results of data mining done over our entire user base. Those results then feed into thi
「いまは新しい技術への大規模な移行をする時期ではないと確信している」。Twitterは、サービスの核となるツイートを保存するデータベースを、MySQLによる大規模分散データベースから、NoSQLデータベースであるCassandraへ移行しようとしていました。しかしCassandraへの移行作業を中止し、引き続きMySQLでの運用を継続すると、Twitter Engineering Blogへのエントリ「Cassandra at Twitter Today」で明らかにしました。 これは戦略の変更だ Twitterは利用者からのツイートを、Scalaによって独自開発したミドルウェア「Gizzard」とMySQL、そしてmemcachedを用いた大規模分散データベースに保存しています。 しかしこうした複雑なシステムによる運用は非常に手間がかかり、人的コストを中心としたコストの増加が非常に大きくな
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く