[B! 運用] pandazxのブックマーク

Mackerelでは計画メンテナンスをどう実施しているか？ RedisをElastiCacheに移行した裏側をご紹介 - Hatena Developer Blog

こんにちは。MackerelチームSREのid:heleeenです。 Mackerelでは、2020年10月14日に計画メンテナンスを実施しました。今回は告知ブログに記載の通り、Mackerelが利用しているRedisをAmazon ElastiCache for Redis（以下、ElastiCache）へ移行しました。本記事では、この10月の計画停止の裏側を紹介します。どのようにElastiCacheへ移行するか大半のRedisを無停止で移行最後はElastiCacheへのオンライン移行を使用メンテナンスに向けたさまざまな準備メンテナンス手順書のチーム内レビューメンテンス実施中の役割分担なぜタイムキーパーが必要になったのかリモートで停止メンテナンスを実施する方法検証環境を利用して事前にリハーサルも実施 Redisを安全に効率よく切り替えるために参照するRedisを

pandazx 2020/11/29

運用

リンク

JVM Operation Casual Talksに参加して思ったことをつらつらと書く - wyukawa's diary

JVM Operation Casual Talks : ATND 内容は参加者のブログエントリとtogetterが下記にありますのでそちらを見るとよいと思います。 JVM Operation Casual Talksに参加しました #jvmcasual - @johtaniの日記 2nd 「JVM Operation Casual Talks」発表資料のリンクをまとめてみる #jvmcasual - 元RX-7乗りの適当な日々 JVM Operation Casual Talks に参加してきました。 - susumuis Info JVM Operation Casual Talks #jvmcasual - Togetter で、このエントリでは発表を聞いて思ったことをつらつらと書きます。ちなみに僕はJava歴10年以上なのですが、JVM運用経験はほとんどありません。最近はちょっと

pandazx 2014/04/11

リンク

サル先生のGit入門〜バージョン管理を使いこなそう〜【プロジェクト管理ツールBacklog】

ようこそ、サル先生のGit入門へ。 Gitをつかってバージョン管理ができるようになるために一緒に勉強していきましょう！コースは4つ。Git初心者の方は「入門編」からどうぞ。Gitを使った事がある方は「発展編」がおすすめです。さらに「プルリクエスト編」では、コードレビューする文化をチームに根付かせましょう。「あれ？何だっけ…？」という時は「逆引きGit」で調べて見てくださいね。

pandazx 2013/05/17

git
運用

リンク

Operations_JP - Cassandra Wiki

ハードウェア CassandraHardwareを参照して下さい。チューニング PerformanceTuningを参照して下さい。スキーマ管理ノードのクロックをntpなどで同期して下さい。クロックが同期していない場合、更新時刻のずれによってスキーマ変更が無効と見なされる可能性があります。 LiveSchemaUpdatesを参照して下さい。[0.7で導入された機能] リング管理それぞれのCassandraサーバ（ノード）には、そのホストを最初のレプリカ先として使用するキーを決定するためのトークンが割り当てられます。ノードのトークンでソートした場合、あるノードが担当するキー範囲は（前のノードのトークン、自ノードのトークン]です。即ち、「前の」トークン（その値は含まない）から自分のトークン（値を含む）までの間隔です。リングの中で最も小さいトークンを持つノードはそのトークン値以下のキー

pandazx 2011/12/22

リンク

Cassandra for Sysadmins

Quick introduction to the moving parts inside Cassandra and essential commands and tasks for System Administrators.

pandazx 2011/12/16

リンク

クラウドは「障害が起こる」前提で使う

クラウドはそもそも、ユーザーのシステム運用負荷を下げられることがメリット。そのため、信頼性についてはある程度の割り切りが必要だ。それでも、クラウドの仕組みを知って、起こりうる障害に明示的に手を打てば、大きなトラブルを避けることができる。これまで述べてきたように、クラウドの障害は「ストレージ障害」「仮想マシン障害」「データセンター設備障害」の三つに分類できる。利用者はこれらの障害が発生することを前提として、障害予防策を講じるべきだ。例えば、ストレージ障害に備えて、データを定期的にバックアップする。仮想マシンの障害に備え、あらかじめ仮想マシンを複数台用意してクラスター構成にしておく。このような構成にしておけば、仮想マシンが異常終了した場合でも、別の仮想マシンに処理を引き継げる。データセンターの設備障害に備えるなら、異なるデータセンターにデータをバックアップしておく。 EC2は障害対策機能が

pandazx 2011/12/15

cloud
運用

リンク

トラブルをわざと発生させサーバ問題解決能力を鍛える「Trouble-Maker」 - GIGAZINE

ほとんどのシステム管理者が経験したことがあるはずの状況は「何か悪いことが起きていて、サーバがダウンしているが、しかし何が起きているのか分からない」というシチュエーション。サーバを管理するシステムアドミニストレーターなどの立場でいると何が大変かというと、実際の製品として動かしている実環境でこのような問題が発生した場合です。そこで役に立つのがこのオープンソースソフト「Trouble-Maker」です。 Trouble-Maker http://trouble-maker.sourceforge.net/ システム管理者の仕事を簡単にするため、多くのツールが存在していますが、未知の状況を経験している場合になんとかしてくれるわけではありません。この一連のソフトウェア群「Trouble-Maker」は既存の便利なツールとは異なり、問題を解決するのではなく、むしろ問題を引き起こします。インストールし

pandazx 2011/12/12

リンク

decommission、rebalance - kikumotoのメモ帳

decommission DataNode をクラスタから削除したい場合、前回書いたようにノードを停止してしまえば目的は果たせるけれど、停止により複製数が満たなくなるブロックができてしまい、自動複製されるまでにさらにノードが死んだりしたらデータ喪失になりかねない。これを回避する目的で、decommission という仕組みがあるらしい。これは、複製を先に実行してからノードが停止される仕組みとなっている。あるノードを decommission させるには、conf/hdfs-site.xml にあらかじめ dfs.hosts.exclude /path/to/exclude のように dfs.hosts.exclude パラメータに削除対象のノードを記述するファイルを指定しておく必要がある。そして、そのファイルには一行にひとつ、削除ノードの FQDN もしくは IP を記述する（必要あれ

pandazx 2011/11/08

リンク

ノードの追加・削除 - kikumotoのメモ帳

ノードの追加・削除といった Hadoop の運用面について少し調べてみたのでメモ。ノードの追加ノードを追加するにはだいたい以下のような手順となる。 Hadoop のソフトウェアをインストールする。このとき、hadoop-env.sh や conf/*.xml も設定しておく。 NameNode、JobTracker ノードからパスワードなしで ssh ログインできるようにしておく。 NameNode, JobTracker の conf/slaves に追加したノードを追記する。最後に、追加したノードで以下のコマンドを実行する。 $ cd $HADOOP_HOME $ ./bin/hadoop-daemon.sh start datanode $ ./bin/hadoop-daemon.sh start tasktracker これで、Hadoop クラスタにノードが追加され、HD

pandazx 2010/07/20

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

運用に関するpandazxのブックマーク (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス