[B! 運用] ji_kuのブックマーク

On-call Engineering

Handling a tremendous amount of images with Fastly / Yamagoya Traverse 2020

ji_ku 2017/02/08

運用

リンク

恥かどうかはともかく、そもそも逃げられない障害対応のお話 - Qiita

システムエンジニア Advent Calendar 2016の20日目の記事だよ！昨日は@sh-ogawaさんの「SIerが実践する分散開発とバージョンコントロール」でした！！システム障害のお話は〜い、こんにちは！いよいよクリスマス間近ですね！この時期になると、キャッキャウフフの予定も盛りだくさんだと思います！1 そんな大事な日に限って起こるのがあれです。そう、みなさんもよくご経験されているだろう、システム障害です2。システム障害それはツラく長く険しい道のりを告げるゴングです。今回は、その障害対応のお話をしたいと思います。この記事のアジェンダはだいたいこんな感じです。報告するはい、システム障害が起きました〜。ｷﾀ━━━(ﾟ∀ﾟ)━━━!! 「マジでか…(´；ω；｀)ﾌﾞﾜｯ」「なんで今日なんだよ〜( ；∀；)」障害発生時の想いは人それぞれだと思いますが、まず最初

ji_ku 2016/12/22

運用

リンク

忙しい人の5分で分かるMesos入門 - Mesos って何だ？

アプリケーションエンジニアでもわかる Docker と Mesos 勉強会 https://sakura-kanto.doorkeeper.jp/events/53777 2016年11月18日(金) 発表資料本スライドの想定は「 Mesos って聞いたことあるけど、よくわかんない　」「 Apache Mesosって何だ？」といった疑問を持つ読者であり Mesos の概念や背景を知るための資料ですRead less

ji_ku 2016/11/24

運用

リンク

OSS になった Kuroko2 をどこよりも早く導入したので紹介したいブログ — みんなのウェディングエンジニアリングブログ

こんにちは、技術部開発基盤グループの小室 (id:hogelog) です。みんなのウェディングは OSS となった Kuroko2 を早速導入したので、その Kuroko2 の導入方法をブログにて共有します。何故 Kuroko2 を導入したかみんなのウェディングではジョブ管理ツールとして主に Rundeck を利用していました。汎用のジョブ管理ツールとして開発されている Rundeck は非常に多機能で様々な処理を柔軟に実行できます。雑多なバッチ処理が稼働していたみんなのウェディングのシステムを一つのジョブ管理ツールに集約させるには非常に便利なものでした。しかし運用を続けるうちにいくつかの難点が見つかってきました。スケジュール実行がいきなり過去のジョブ定義に巻き戻る（ことが稀にある） https://github.com/rundeck/rundeck/issues/1447 M

ji_ku 2016/11/02

リンク

運用の問い合わせチケットを10分の1に削減した話 - Qiita

Help us understand the probl em. What is going on with this article? 会社で働いていると、運用チームからの問い合わせがあると思います。問い合わせというものは、割り込みに繋がり生産性を下げるのでなるべく減らしていきたいものです。 Redmineで管理されているオープンなチケットを10分の1に削減した話をまとめます。常時、約50枚ほどオープンなチケットを5枚ほどに減らしました。問い合わせが多くて辛みを味わっている方の参考になれば。概要 Web自社サービスタスク管理ツール Redmine 毎日、5枚ほどチケットが増える運用と開発がそれぞれ20人ほどこんな環境です。改善のきっかけうちのチームは、当番制で「問い合わせの窓口」(以下、窓口)となる人を作ります。窓口の人がチケットを解決したり、有識者にチケットを委譲した

ji_ku 2016/10/23

運用

リンク

目指すは「運用担当ゼロ」、ChatWorkがAWS上のインフラ運用を自動化

11万社以上が導入する企業向けチャットサービス「チャットワーク」。運営するChatWorkが取り組んでいるのが、AWS（アマゾン・ウェブ・サービス）で稼働するシステム運用の効率化だ。ユーザー数の増加に応じて仮想マシンの台数が増え、運用の負荷も膨れ上がった。少人数で事業を成長させるには、運用を効率化して開発に注力できるようにする必要があった。「理想は、運用に張り付くインフラエンジニアをゼロにすること。そのために、できるだけ運用作業を自動化することにした」。ChatWork CTO室の九岡佑介氏はこう話す（写真）。「インフラ構築」「監視」という二つのテーマで自動化を進めた。インフラ構築の自動化では、まず軽量コンテナの「Docker」を採用し、その管理のために、米グーグルがオープンソースとして公開する「Kubernetes」を導入した。「コンテナの数が増えると管理が大変になる。大量のコンテナ

ji_ku 2016/09/23

運用

リンク

【社内資料公開】運用手順書を作る時のポイントについて書いてみた | DevelopersIO

はじめにこんにちは植木和樹＠上越妙高オフィスです。本日は私がここ10年くらい意識している運用手順書を書くときのポイントについてまとめてみました。対象読者開発・構築したシステムを別の人に引き継ぐ予定のある人他の人が作ったシステムを引き継ぐ担当の人半年後の自分でも分かる手順書の書き方に困っている人（この記事を読むのにかかる時間の目安：5分） 1. ドキュメントの冒頭に書くことまず個々の詳細手順の前に、ドキュメント自体について記載してもらいたいことです。 1.1. ドキュメントに書かれていることを3行で書くドキュメントの最初には、このドキュメントに何が書かれているのかを100文字くらいで書いておくと良いでしょう。システムが増えれば増えるほど手順書も増えていくものです。見つけたドキュメントに自分の期待するものが書かれているのか、冒頭数行でわかるようになっているとうれしいです。 1

ji_ku 2016/06/30

運用

リンク

複数サービス間の整合性の取り組みについて - クックパッド開発者ブログ

こんにちは。技術部開発基盤グループの大石です。本日は開発基盤グループが社内の各サービスに提供している共通基盤サービスの1つである共通決済基盤を例にサービス間の整合性を維持するための取り組みを紹介したいと思います。(共通決済基盤については以前紹介したクックパッドの課金を支える技術を参照ください) 決済における整合性を考えるサービス間連携は決済に限らず発生するものですが、共通決済基盤の場合、組織外にあるサービスと通信する必要があり、コントロールができない外的要因に影響を受けやすい点と、決済という確実性が求められる処理を含んでいるということの間で整合性について考える必要があります。まずは、共通決済基盤上で行われるサービス間通信の種類とそれぞれで通信を行っている際にエラーが起きた場合にどのようにハンドリングすれば整合性を維持できるかを考えてみます。サービス間通信の種類と流れ共通決済

ji_ku 2016/06/02

リンク

なめらかなシステムのアイデアと設計概要 / namerakad-idea-design

コンピュータやそれを取り巻く技術が発展した今もなお、我々の住む世界は様々な障壁に満ち溢れています。それはWebサービスを始めとしたシステムに関しても同じこと。突然のアクセス集中や多くのシステムが連鎖した障害などに適切に対処してくれる、システムに携わるすべてのエンジニアが安心して眠れる環境はできないのでし…

ji_ku 2016/05/20

運用

リンク

クックパッドの継続的な成長のために開発と運用が何をしてきたのか、その失敗と成功について // Speaker Deck

2016/01/23 Cookpad TechConf 2016 http://techconf.cookpad.com/

ji_ku 2016/01/27

リンク

システム障害と僕達はいかにして戦えば良いのか、障害対応について考えた - Qiita

IT界隈でエンジニアしていると、よく出くわすのが障害対応です。できれば会いたくないという人が多いと思うんですが、僕はけっこう好きです。障害対応。どこに原因があるのか調査をして、バランス良くベターな対応をしたときの楽しさは、プログラミングとはまた違ったものがあります。探偵っぽい感じが面白いですよね。もちろん、障害が発生しない状況を作るのが一番です弊社では数多くのWebサービス／アプリを運営しているので、過去様々な障害対応をしてきました。その際に、解決までどんな道筋を僕がたどるのかを振り返ってまとめてみました。これが大正解なんてことはなく、人や事象によって違うとは思いますが。なお、障害検知手法とか、サーバのコマンドとか、コードのデバッグ手法とか、具体的なことは一切出てきません。手続きと思考プロセス的な話です。障害対応フローチャート一般的な感じだと思いますが、障害報告から対応完了までのフ

ji_ku 2015/12/22

運用

リンク

はてなで新しくWebサービスを作るときのインフラの作り方 - Hatena Developer Blog

この記事ははてなデベロッパーアドベントカレンダーを始めます - Hatena Developer Blogの17日目の記事です．昨日は id:yashigani_w の Promiseを学ぶためにSwiftでPromiseを実装してみた話 - yashigani?.days でした．こんにちは、はてなの id:wtatsuru です。はてなのインフラ全般をみています。はてなでは、しばしば新サービスを構築する機会があります。正式サービスもあれば、はてラボのような実験的サービス、内部の Microserviceの一部になっているものなど多種多様なものがあります。新規サービスのインフラを構築する際は、最小構成でありつつ後のスケールやメンテナンスを考えた仕組みを作っていくことになります。この記事では、2015年12月現在のはてなでの標準的な構成を紹介していきます。新サービスの最小構成こち

ji_ku 2015/12/22

運用

リンク

LAMP環境（Linux,Apache,MySQL）の障害対応で最初のアタリをつけるための秘伝のタレ - Qiita

この記事は animateLAB Advent Calendar 2015 19日目の記事です。こんにちは。ポエムおじさんこと@kariaです。今年のAdvent Calendarもついに19日目となりました。後半に入り歴戦のエンジニアたちが次々と参戦してくれて、主催者としてはありがたい限りです。今日はポエムデーのはずだったのですが、予定を変更して私の手元の秘伝のタレに少し味付けをして公開することにしました。ということで、LAMP環境で障害対応をすることになった時にどこからアタリを付けてどう調べていくか？という初動対応のお話をします。そもそもLAMP環境とは OS:Linux Webサーバ:Apache データベース:MySQL アプリケーション：PHP/Perl/Python という組み合わせの、IT用語辞典に項目があるぐらいメジャーな環境構成のことをLAMPと呼びます。最近だとW

ji_ku 2015/12/22

運用

リンク

泥臭いサーバ運用自動化の話 | GREE Engineering

こんにちは、North America事業本部のLiang Fanです。このエントリーは GREE Advent Calendar 2015 10日目の記事です。本日は、以前所属していたインフラストラクチャ部のサーバ運用と自動化の話を少しご紹介したいと思います。よろしくお願い致します。はじめに運用自動化と聞いて、みなさんは頭の中に何を浮かべますか？仮想化技術(docker、VM)、構成管理ツール(chef、puppet)やクラウドサービス(AWS、Google Cloud Platform）などの答えがたくさん出てくるかもしれません。本日はそれらの技術を使って、かっこいい運用自動化ができたという話ではなく、レガシー環境のサーバ運用を少しでも楽にするための泥臭い自動化の話を紹介したいと思います。グリーのレガシー環境レガシー環境と言っても、もう歩けない80歳のおじいさんではなく、

ji_ku 2015/12/15

運用

リンク

Airbnbのメインデータベースをどうやって2週間で分割したか | POSTD

スケーリング＝時速160㎞で走行しながら自動車の全ての部品を取り替えること－Mike Krieger　 Instagramの共同設立者＠ Airbnb OpenAir 2015 Airbnbのピーク時のアクセス数は、毎年夏のピーク時で見ると年率3.5倍で増加しています。 2015年夏の旅行シーズンを前に、Airbnbの基盤チームは、夏季のアクセスで予想されるデータ通信量に対処するため、データベースのスケーリングで忙殺されていました。中でも特に全体への影響が大きかったプロジェクトが、特定のテーブルを、アプリケーションの機能に従ってそれぞれのデータベースに分割することを目的としたプロジェクトでした。これは通常、アプリケーション層のフォームの変更やデータ移行、データの整合性を保証する堅牢性テストなど、最小限のダウンタイムで多大な技術的投資を必要とするものです。何週間もかかるエンジニアリング時間

ji_ku 2015/11/05

運用
mysql

リンク

Slerとaws運用の付き合い方

2012/7/13開催の「AzureとAWSをクラウド女子部が語る！クラウド勉強会 in 福岡」 http://atnd.org/events/30235 の資料です。 AWSに関するお問い合わせ：https://www.serverworks.co.jp/contact/ サーバーワークスエンジニアブログ：http://blog.serverworks.co.jp/tech/

ji_ku 2015/11/05

リンク

インフラエンジニアの責任範囲と評価 - クックパッド開発者ブログ

インフラストラクチャー部の成田です。2015年10月現在、インフラストラクチャー部には私を含め7人のインフラエンジニアが所属しており、このメンバーでクックパッド本体サービスをはじめ様々な新規事業やいくつかの子会社のサーバを運用しています。私自身もエンジニアではありますが部のマネージャも兼ねているため、立場上、社外の方からインフラエンジニアのマネジメントについて質問されることがよくあります。今回は、私自身の考え方とクックパッド社における事例を紹介したいと思います。「インフラエンジニア」とは「インフラエンジニア」という言葉の定義はあいまいで、しばしば議論の的になります。傍目からは明らかにインフラエンジニアであるように見えるにも関わらず「私はインフラエンジニアでは無い」と主張する人たちもいます。このような状況になっているのは、サーバ運用に関する業務分掌が会社ごとに異なるからであると私は考えて