え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
こんばんは。Amebaで雑用をしている佐野と申します。 前編を執筆した寺本に引き続き、QCon San Francisco 2012の参加レポート後編を執筆させていただきます。 3日間で20セッション近く聞いたのですが、特に印象的だったものについて概要をレポートさせていただきます。 1. Architectural patterns for high availability → Netflixのアーキテクチャについて。 NetflixはWebでDVDのレンタルを提供するサービスを展開していて、 DVDはストリーミングでも視聴可能。 そのトラフィックは北米でトップ(モバイルのトラフィックは除く)。 下りトラフィックは、北米の下りトラフィックの33%を占める(ちなみにyoutubeは14.8%)。 そのシステムの中核はAWSとCassandraでした。 2. Scaling Pinteres
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
楽天で開催された Cassandra Conference in Tokyo に参加してきました。多くのセッションがありましたが、楽天での採用事例が聞ける最後のセッションに参加しました。実はCassandraに関して、前提知識をほとんど持っていなかったので、自分が正しい理解をしたのか不安ではありますが、、実際に採用し得られたノウハウの紹介や、不具合をオープンソースへフィードバックしているというお話はおもしろかったです。 全体を通して思ったのは、これはCassandraに限った話ではないですが、ノウハウを持たない状態での採用はリスクが高いということです。そして、そのリスクをカバーするために以下の様に失敗の可能性を下げるための準備、失敗した時に迅速に復旧させる為の準備までも意識する必要があると思いました。 設計フェーズではCassandraを意識したクエリやスキーマにする。 テストフェーズでな
複数の書き込みに対応する環境を作る。 「複数ノード立ち上げたApache Cassandraの環境にて どのようにデータを分割するか?」 という問いに対しては 「基本的によしなにしてくれるのであまり意識しなくてもよい。」 との回答になります。 つまりはどのノードに繋いでも変わらないとということです。 Cassandraがリクエストを必要に応じてプロキシしてくれるので 「最終的に」しかるべき場所に格納してくれるという動きをしてくれます。 極端な話、接続先のノードを一つに絞ってすべてのリクエストを そこに集中させると言う方法もありです。 もっとも、そのままそのアクセスポイントが SPF(Single Point of Failure/シングルポイント障害)に なってしまいます。 この点に関して、Apache Cassandraでは以下の四つの方法を提示してくれています。 クライアントにおいて接
3. 自己紹介 桑野 章弘 id: akuwano twitter: @kuwa_tw 株式会社サイバーエージェント インフラエンジニア 最近は自分でも何やってんのかわからなくなってきた
稼働中のCassandraの統計情報の確認とかバックアップ(スナップショット)/リストアは、Cassandra付属のツールで実行できます。 (統計情報) $ $CASSANDRA_HOME/bin/nodetool -host localhost tpstats Pool Name Active Pending Completed STREAM-STAGE 0 0 0 RESPONSE-STAGE 0 0 0 ROW-READ-STAGE 0 0 2 LB-OPERATIONS 0 0 0 MESSAGE-DESERIALIZER-POOL 0 0 0 GMFD 0 0 0 LB-TARGET 0 0 0 CONSISTENCY-MANAGER 0 0 0 ROW-MUTATION-STAGE 0 0 3 MESSAGE-STREAMING-POOL 0 0 0 LOAD-BALANCER
まず最初に読むべきドキュメント Introduction to Cassandra at FOSDEM 2010 (ビデオとスライド) Cassandra by Example, Twissandraのデータモデルとコードの説明. デモサイトは http://twissandra.com/. JavaとC#への移植事例もあります. Maxim Grinevによる データモデリングの基礎, SQLからCassandraへの概念変換, idempotentに更新せよ Cassandraのレプリケーションと一貫性の概要 WTF is a SuperColumn? Cassandraのデータモデルを知るはじめの一歩です. Javaのモデル実装を含むクライアントコードの サンプルはこちら です. Up and Running with Cassandra: rubyを使ってTwitterクローンとマ
この記事は、Arin Sarkissian氏のブログ記事「http://arin.me/blog/wtf-is-a-supercolumn-cassandra-data-model」を氏の許可を得て翻訳したものです。(原文公開日:2009年9月1日) ここ1、2ヶ月というもの、DiggのエンジニアリングチームはCassandraについて調べ、遊び、最終的にはプロダクションにデプロイするためにかなりの時間を費やしてきました。これは実に楽しいプロジェクトでしたが、楽しくなる前にCassandraのデータモデルについて理解するために相当の時間を費やしたのです。「'super column'って何だよ」というフレーズが何度も口にされました。 もしあなたのバックグラウンドがRDBMSならば(ほとんどみんながそうでしょうが)、Cassandraのデータモデルについて学ぶ際に、いくつかのネーミング規約で
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く