「いまは新しい技術への大規模な移行をする時期ではないと確信している」。Twitterは、サービスの核となるツイートを保存するデータベースを、MySQLによる大規模分散データベースから、NoSQLデータベースであるCassandraへ移行しようとしていました。しかしCassandraへの移行作業を中止し、引き続きMySQLでの運用を継続すると、Twitter Engineering Blogへのエントリ「Cassandra at Twitter Today」で明らかにしました。 これは戦略の変更だ Twitterは利用者からのツイートを、Scalaによって独自開発したミドルウェア「Gizzard」とMySQL、そしてmemcachedを用いた大規模分散データベースに保存しています。 しかしこうした複雑なシステムによる運用は非常に手間がかかり、人的コストを中心としたコストの増加が非常に大きくな
2. 翻訳者募集中 ! 森下 雄貴 @yukim Cassandra wiki 翻訳に参加してます http:// 4. Bigtable + α のリッチなデータモデル Keyspace ColumnFamily Column Column Column Column Column Column Column Column Column Key Key Key ColumnFamily Column Column Column Key Key SuperColumn Column Column Column SuperColumn Column Column Column SuperColumn Column Column Column SuperColumn
Cassandra's front page states that: Cassandra guarantees reads and writes to be atomic within a single ColumnFamily. What exactly does that mean? It sounds like it means that batch_insert() and batch_mutate() of two different rows, in the same CF is atomic and if the operation on one of the rows fails, the whole operation fails. but it sounds too good to be t
FAQ CassandraはListenAddress設定で何故0.0.0.0(全アドレス)でリッスンできないのですか? Cassandraはどのポートを使うのですか? Cassandraは何故大量のインサート後に遅くなるのでしょうか? 新たにノードを追加したときに,既存のデータはどうなってしまうのでしょうか? 動いているクラスタに新たにカラムファミリを追加したり削除したり改名したりできますか? Thriftクライアントやハイレベルクライアントがどのノードに接続しているかは問題になるでしょうか? Cassandraを動かすマシンの推奨スペックってどんなものでしょうか? SSTablesとMemtablesって何ですか? Javaで何故TimeUUIDTypeを使うのが難しいのでしょうか? Cassandraからデータを削除したのにディスク使用量は同じです.何が起こってるのでしょうか? 何故
3. はじめに 現在 RDB が使われてきている部分に関して、 RDB 以外では出来ないのかを模索する noSQL(NotOnlySQL)と言う流れが急速に加速している。 特に Web アプリケーションにおいては RDB は冗長である傾向があり、 での sharding も RDB 限界がある。 そこで Facebook 社が開発した分散 DB「cassandra」について、実際どの程度使えるのかを 調査/検証してみた。 3 4. 概要 Cassandra は Facebook で作られた分散型 DB サーバである。 Dynamo 的な大規模分散管理と、HyperTable の様なカラム型データ構造を持った DB となっ ており、高可用性と冗長性を併せ持つ。 目標としては、これらを上手く利用することで今まで MySQL で行っているレプリケーショ ンとテーブル分割でサーバをスケール
間が開いてしまいましたが引き続き複数ノードの話を書いていきたいと思います。 ※この間、0.6はbetaからリリースにステータスが変わりました。 さっくり入れ替えてみましたが今のところ単純にバイナリ入れ替えで問題は出ていません。 cassandraを複数ノードで立ち上げる為、「storage-conf.xml」を以下の設定に変更しました。 簡単に解説をつけていきたいと思います。 複数ノード可に関連して変更した箇所は赤色で表示します。 青色はそれ以外の為の変更です。 <Storage> <ClusterName>Intheforest Cluster</ClusterName> ----------------(1) <AutoBootstrap>true</AutoBootstrap>----------------------------(2) <Keyspaces> <Keyspace
メモリ 最新の書き込みデータはメモリ内のテーブル(Memtable)に存在します。しかしディスクに書き出された古いデータはOSのファイルシステムキャッシュに格納されます。言い換えると メモリは多ければ多い程良く、仮想化環境では最低でも1GBを推奨します。もちろん最新のデータセットに必要なRAM以上を用意するのは無駄ですが、専用ハードウェアにおいては4GB以下で使用する理由はありません。ハイエンドの構成では、16もしくは32GB以上のノードで構成されるクラスタが存在します。 RAMはキーキャッシュ(0.5で導入)や、行キャッシュ(0.6で導入)にも役立ちます。 CPU Cassandraでは大部分の負荷は実際にはメモリ依存になる前にCPU依存になります。Cassandraは並列度が高く、与えたコアを効率良く使います。ハイエンドのクラスタ構成ではクアッドもしくは8コアが良いでしょう。仮想マシン
Cassandra Internals – Tricks! 2010-03-20 cassandra In my previous posts, I covered how Cassandra reads and writes data. In this post, I want to explain some of the trickery that Cassandra uses to provide a scalable distributed system. Gossip Cassandra is a cluster of individual nodes – there’s no “master” node or single point of failure – so each node must actively verify the state of the other cl
Memory The most recently written data resides in memory tables (aka memtables), but older data that has been flushed to disk can be kept in the OS's file-system cache. In other words, the more memory, the better, with 4GB being the minimum we typically recommended in a virtualized environment (e.g., EC2 Large instances). Obviously there is no benefit to having more RAM than your hot data set, but