[B! 障害] learnのブックマーク

learn id:learn

障害に関するlearnのブックマーク (11)

我々はいかにして技術選択を間違えたのか？ 2016 - Cybozu Inside Out | サイボウズエンジニアのブログ
どうも！アプリケーション基盤チームの横田(@yokotaso)です！ kintoneなどで利用していたJavaフレームワークのSeasarのEOLに伴い、S2Daoからの脱却を試みたのですが、パフォーマンス問題や障害を発生させてしまうなど問題を多々発生させてしまいました。同じ過ちを繰り返さないという強い決意のもと、今回の失敗をブログで公開いたします。失敗をあえて公開する点で斬新かつ濃いブログ記事となっております！失敗体験の公開は恥だが役に立つ！移行先の選定の失敗移行先として選定したプロダクトは Hibernate*1です。 Hibernateを選んだ理由としては Spring Framework を選定した Spring Frameworkで Interface + アノテーションでプログラミングするならSpring Data JPA が有力 JPAに準拠したのORMの中でも、H
learn 2016/12/30
java

Hibernate

障害

メモリ
リンク
データセンター移転とDRBD - Cybozu Inside Out | サイボウズエンジニアのブログ
@ymmt2005 こと山本泰宇です。今回は去る 5 月から 6 月にかけて行った、cybozu.com のデータセンター移転作業について、失敗してしまったことを中心に解説します。失敗と書いたのは、移転作業中に何度か、一部のお客様環境でストレージ高負荷による障害を起こしてしまったためです。移転作業自体はスケジュール通り進行し、6 月第二週に完了しています。障害に関しては、こちら（PDF）でお詫びとご報告をしていますが、この記事では技術面ならびに障害を引き起こすにいたった背景について詳述します。移転に至った背景移転方式の検討ストレージ同期の方法 DRBD による同期の詳細まずは自社環境を移転、成功そして障害は発生したなぜ障害につながったのかまとめ移転に至った背景まず、なぜデータセンターを移転することにしたかを説明します。端的に言うと、当時のデータセンターが手狭になり拡張
learn 2013/07/27
DRBD

障害

事例
リンク
クラッシュダンプからカーネルメッセージを取り出すツール「crashdmesg」を作りました : DSAS開発者の部屋
Linuxカーネルには、カーネルパニック時にkexecを使ってダンプ取得用のカーネル(セカンドカーネル)を起動する仕組みがあります。このセカンドカーネルは予めリザーブされたメモリ内で起動するため、クラッシュしたカーネルが処理していたメモリの内容はそのまま残っていて、procファイルシステム経由でクラッシュダンプを取得する事ができます。このDSASブログでも、以前「Linuxでクラッシュダンプを採取(1) 〜 kexec + kdump を使ってみる〜」と言うタイトルでクラッシュダンプの取得方法をご紹介しました。「crashdmesg」は、kexec+kdumpで保存したクラッシュダンプから、カーネルメッセージの内容を取り出すツールです。デバッガと比べてはるかに軽量なため、セカンドカーネル上で直接/proc/vmcoreからカーネルメッセージを取り出すこともできます。最近のクラッ
learn 2011/06/21
linux

障害
リンク
Twilioのクラウドアーキテクチャ原則
Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...
learn 2011/05/08
aws

クラウド

アーキテクチャ

障害
リンク
youRoomにおいて発生した 2011/4/21 のAWSの障害について技術的な観点から - mat_akiの日記
SonicGardenがサービスしている youRoom ( http://youroom.in/ ) が昨日障害により最大１時間程度サービスをご利用いただけない状態になりました。ご利用の方にはご迷惑をおかけしました。大変申し訳ございません。現在は、復旧し正常にサービスを提供しています。障害の原因は、youRoomが利用している Amazon Web Service の障害により利用しているサーバが停止したことによります。今回の障害で、AWSが危ない・不安定だという印象を受けた方もいらっしゃるかと思いますが、SonicGardenとしてはあたりまえだと思っています。そのための準備もしていました。なので、他のサービスよりも短時間でサービスを復旧できたのではないかと思っています。ただし、今回の障害でまだまだ改善する点が見つかったので、AWSの障害が起こってもサービスを継続できるように・より
learn 2011/04/23
AWS

運用

障害
リンク
FoursquareのMongoDBが機能停止
Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...
learn 2010/11/20
MongoDB

障害

運用
リンク
mixi大規模障害について解明編 - mixi engineer blog
こんにちは、システム本部技術部たんぽぽGの森本です。先日のmixi大規模障害の原因となったmemcachedの不具合の詳細な解明ができました。再来週まで発表を見合わせようと思ったのですが、早くお伝えしたほうがいいと思いましたので公開発表致します。 memcachedとlibevent memcachedはlibeventというライブラリを使用してクライアントからの要求(接続、コマンド送信)を処理しています。 libeventを使用するにはevent_baseという構造体を用います。 main threadはmain_baseを使用します。 static struct event_base *main_base; ... int main (int argc, char **argv) { ... main_base = event_init(); ... /* enter the ev
learn 2010/08/25
memcached

事例

mixi

障害
リンク
libevent-1.3b, libmemcached-1.4.4 で固まる? - moratorium
libevent-1.3b, libmemcached-1.4.4 で固まる? 2010-08-13 (Fri) 0:56 Uncategorized mixiの件について、nealさんから情報を貰ったので数時間調査してみた。というのも、うちの製品でもlibevent(evhttp)をリクエスト処理に使っているので、これにバグが有ると非常に困る。 Nealさんのつぶやきひとまず、libevent-1.3b, libmemcached-1.4.4をビルドする。memcachedは、-cで同時接続数を制限できる。で、この同時接続数というのは、実はファイルディスクリプタの数を制限する事で達成されている。memcached.cの以下の部分。 /* * If needed, increase rlimits to allow as many connections * as needed. */
learn 2010/08/19
memcached

mixi

障害

事例
リンク
mixiがはまったmemcached(or libevent?)の問題を調べる人たち
Neal Sato @nealsato 二日とも複数台のmemcachedが連続して落ちました。コアは吐かずにストンと落ちるので、原因追及に時間がかかりましたが、memcachedへの接続数が異常に多いと落ちる事は再現できました。 #mixi 2010-08-12 02:33:00 Neal Sato @nealsato memcachedが大量の接続を受けると突然停止をするので、memcachedへの接続数を減らし安定運用中。外部からの過剰アクセスではなく、サーバ追加→クライアント数増加→停止。 2010-08-12 08:45:50 Masahiro Nagano / 長野雅広 @kazeburo ファイルディスクリプタが不足してmemcachedが落ちたとして、そのときには、3万強の接続となってるはず。3万強の接続となるにはアプリケーションサーバ側のmax clientが平均60とし
learn 2010/08/19
memcached

mixi

障害

事例
リンク
mixi大規模障害について - mixi engineer blog
こんにちは。システム本部技術部たんぽぽGの森本です先日のmixi大規模障害についてのブログです。はじめにお断りしておきますが、弊社CTOがtwitterで公開した以上の情報はまだ得られておりません。 twitterでは書ききれなかった細部を補足してみたいと思います現状判明しているのは以下の点です memcachedに大量の接続・切断を行うとmemcachedプロセスが突然終了することがある memcachedには異常時に終了するフローもあるが、同時に出力されるはずのエラーログは出ていなかった coreも出力されていなかったテスト環境にて追試を行ったところ、なんどか再現させることができましたが、確実に発生する条件は未だ不明です。障害時の memcachedのバージョンは1.4.4, libeventのバージョンは1.3bです memcached の起動オプションは以下のとおり ./
learn 2010/08/19
memcached

mixi

障害

事例
リンク
［速報］mixiが障害の経緯を発表。原因はお盆のアクセス急増ではなく、memcachedの異常終了
8月10日の17時20分頃から12日未明までの長時間にわたり、サービスが利用不能もしくは利用しにくい状況になっていた「mixi」。数度の断続的な復旧ののちに、本日12日午前1時50分頃には復旧が完了し、現時点で全面的に復旧しているようです。その障害の経緯について株式会社ミクシィの広報からプレスリリース「『mixi』のアクセス障害のお詫び及び復旧に関するお知らせ」として発表されました。原因はアクセスの急増ではなかったプレスリリースの中で、今回の障害の原因は以下のように説明されています。『mixi』のデータベースへの負荷軽減のために導入しているデータキャッシュシステムが複数同時に異常終了したことに伴い、データベースへの負荷が急増したため『mixi』を閲覧しづらい状態となりました。高負荷かつ特殊な状態でのみデータキャッシュシステムの異常終了が発生していたため、根本的な原因の究明に時間が
learn 2010/08/13
memcached

障害

事例

mixi
リンク
1