https://aws-startup-community.connpass.com/event/241721/ 2022/05/10(火) 19:30 〜 21:30 「スタートアップ事例祭り 〜監視・モニタリング・セキュリティ編〜」
こんにちは、メルカリMicroservices SREチームの藤本(@jimo1001)です。 私は現在、Embedded SRE として サーチインフラチームに入り活動しています。このサーチインフラチームは、Elasticsearchを使用した検索基盤を管理し、様々なマイクロサービスに検索機能を提供するチームです。この検索基盤は非常に巨大なプラットフォームで、メルカリ全体のマシンリソースの高い割合を占めており、メルカリの検索を支える非常に重要なものです。私の Embedded SRE としてのミッションは検索基盤の信頼性の向上と自動化を推進することです。 今回は、メルカリの検索基盤で利用している Elasticsearch における運用のノウハウを紹介したいと思います。 Elasticsearch とは Elasticsearch は、Elastic社が開発する Apache Lucen
概要 「CI/CDに興味はあるけど、どうすれば良いかワカラナイ」そんなあなたにお届けします。 LambdaやAPI Gateway、DynamoDBなどを用いたサーバーレスアーキテクチャのシステム開発において、どのようなCI/CDを構築し運用しているのか、実際のプロジェクトを参考にしつつお話します。 また、LambdaなどのAWSサービスのエラー監視と通知についてもお話します。 なぜこのテーマを選んだか? 昔、プライベートでサーバーレスなシステムを作ったことがあるのですが、何も分からない状態からはじめ、画面ポチポチ・CI/CDなし、みたいな状態でした。 当時の私にとって、特にCI/CDや監視の導入は調べても情報が少なかった記憶があるので(検索力の問題かもしれない)、これを気に発表してみたいと考え、このテーマを選定しました。 CI/CDを行う上で無視できないセキュリティ 何をもって安全とする
こんにちは。メルペイでバックエンドソフトウェアエンジニアをしている id:koemu です。 バッチプログラムのお話、今回は運用・監視についてお話したいと思います。当社はすべての業務が24時間行われていますので、システムがオンラインのときに動作するバッチプログラムについてのみ議論します。 過去の記事はこちらにあります。 運用に備えて バッチプログラムの運用について、「プリモーテム」「実行管理」そして「ログ管理」の3点について述べていきます。 プリモーテム ポストモーテムという言葉を聞いたことがある方はいらっしゃるかと思います。ポストモーテムとは、GoogleのSRE本の15章*1によれば、障害などの失敗を振り返り、今後に活かすプロセスの総称と捉えることができます。 さて、プリモーテム(プリモータム)とは何でしょうか。この言葉は、私が最近読んだThe Manager’s Path*2*3で使
概要 運用監視ツールの比較検討をして、ZABBIXからPrometheusへ移行することにしました。 その経緯を書きます。 現状 弊社ではAWSやさくらのクラウド、ConoHaのクラウドなど様々なIaaS/VPSを使って暮らしニスタやMillyなどのサービスを展開しています。 監視対象VM数は170台程度です。 抱えていた課題 重い 監視対象が増えるにつれて重くなってきて、素早く情報を見たい時にストレスになっていました。 ZABBIXのDBはMySQLを使っていましたがパラメータチューニングが必要で、運用に手間がかかっていました。 サポート切れ ZABBIXサーバのバージョンが2.2で、サポート期限の終了が2019年8月と近づいてきていました。 (詳細は公式情報をご覧になってください) スクリーン作成の難しさ ZABBIXはグラフをまとめたものをスクリーンと呼んでいるのですが、スクリーン作
運用監視サービスのDatadogが、フロントエンド自動テスト「Madumbo」を買収。サーバからフロントエンドまでをモニタリングするフルスタックな監視サービスに システムの運用監視をクラウドサービスとして提供しているDatadogは、フロントエンドの自動テストツールを提供している「Madumbo」の買収を発表しました。 Datadogは一般的な運用監視ツールと同様にサーバの稼働状況をモニタリングし異常を発見することに加え、ダッシュボード上でモニタリング状況を見ながら関係者とチャット画面でコミュニケーションできる機能を提供しているのが特徴の1つ。 ApacheやNginx、MySQLやPostgreSQLなど多くのミドルウェア、仮想マシンやクラウドのインスタンス、Dockerコンテナなどの状況も監視可能。 さらにPython、Go、Rubyなどで記述されたアプリケーションやフレームワークを検
運用監視に必要な知識はOS、コマンド、そしてプログラミング~ゼロからの運用監視設計(後編)。July Tech Festa 2016 運用監視の自動化は、複雑化するアプリケーションやサービスに対して効率的かつ確実な運用監視を実現する上で、またコスト削減の意味でも重要な要素になってきています。しかし運用監視の自動化は、どのように考えて実現していけばいいのでしょうか。 (本記事は「正しく運用されているかを評価するのが監視である~ゼロからの運用監視設計(前編)。July Tech Festa 2016」の続きです。) ゼロからの監視設計 ひとつはサービスレベルの定義、もうひとつは非機能要件としてのシステム監視ですね。こういうことは以外と職場でも学校でも教えてくれなかったことです。 なぜかというと、だいたい担当部署によってみているレイヤが違うわけです。物理層を見ているところ、ネットワーク層、あるい
正しく運用されているかを評価するのが監視である~ゼロからの運用監視設計(前編)。July Tech Festa 2016 運用監視の自動化は、複雑化するアプリケーションやサービスに対して効率的かつ確実な運用監視を実現する上で、またコスト削減の意味でも重要な要素になってきています。運用監視の自動化は、どのように考えて実現していけばいいのでしょうか。 7月24日に産業技術大学院大学で行われたイベント「July Tech Festa 2016」のセッション「運用自動化のための Re:ゼロから始める監視設計」は、そのための知見を得る上で大変参考になるものでした。この記事では、そのダイジェストを紹介します。 運用自動化のための Re:ゼロから始める監視設計 前佛雅人氏。 今日の私の話は、業界経験が豊富な方には当たり前すぎる内容かも知れませんが、自分だったら20年前にこれを知りたかったな、ということを
技術評論社様より、献本をいただきました。 斎藤 祐一郎 著の「ITインフラ監視実践入門」です。 ソフトウェアエンジニアのための ITインフラ監視[実践]入門 (Software Design plus) 作者: 斎藤祐一郎出版社/メーカー: 技術評論社発売日: 2016/01/16メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る早速読了いたしましたので、主観的な感想を本エントリーに残したいと思います。 以下、興味のある人だけ続きを読んで下さい。 スポンサーリンク これまで、あるようで無かった監視の本 これまで、ZabbixやNagiosなどの統合監視の解説書や、サーバー運用に関する書籍は見掛けましたが、私の知る限りでは「ITインフラ監視」をテーマにした解説書は、見たことがありません。 何故、これまで監視の本が出なかったのでしょうか。 その監視ノウハウが社外に出ること
ずっと読もうと思っていたけど読めていなかった「ウェブオペレーション」を読んだ.読んでたら週末終わってしまった! 2011年に発行された本だし結構古くなってるのかなとも思ったけど,全然そんなことなく,今読んでも目から鱗な知見ばっかりだった.確かにウェブオペレーションを取り巻く環境は広くなってたり,デファクトスタンダードな技術も推移して便利になってきているけど,マインドの部分は不変なものだなと感じた. ウェブオペレーション ―サイト運用管理の実践テクニック (THEORY/IN/PRACTICE) 作者: John Allspaw,Jesse Robbins,角征典出版社/メーカー: オライリージャパン発売日: 2011/05/14メディア: 大型本購入: 10人 クリック: 923回この商品を含むブログ (50件) を見る ビジネスメトリクス メトリクスって言うと Zabbix や Mack
初めての運用管理者が知っておきたい監視・ジョブ管理向けOSS構成例4つの比較まとめ:Zabbix+JobSchedulerで効果的な運用監視とジョブ管理(1/2 ページ) 「監視」と「ジョブ管理」はシステム運用の要といえるもの。オープンソース、商用ともに多様なツールが存在しますが、本連載ではオープンソースソフトウエア(以降、OSS)に焦点を当て、「Zabbix」と「JobScheduler」の活用法を詳しく解説します。監視やジョブ管理の機能を持つツールは種々存在しますが、その中でも特にオープンソースソフトウエア(以降、OSS)のZabbixとJobSchedulerを活用する方法について解説します。 前編となる本稿では、監視とジョブ管理の正しい在り方と、ZabbixやJobSchedulerを用いることによるメリット、TISが開発したOSSであるZabbixとJobScheduler連携ツ
いつもアプリケーションの開発ばかりで、まじめに監視系を考えたことがなかったので、 fluentdを中心にした監視系を作ってみた。 前提 複数台のアプリケーションサーバ 一台のログ収集サーバ ログにはエラーログとアクセスログの大きく2種類を用意する エラーログは更に複数のレベルでファイル単位にわかれている fatal error warn アプリケーションサーバとログ収集サーバは同一ネットワーク上にある やりたいこと メールで来ても絶対に気がつかない自信がある。 異常の側から教えてくれる仕組みを目指す。 fatalログが出た場合は、電話による通知を行う 全てのエラーログはchatツールに出力する ログのバックアップ ログの分析・可視化 この記事では1, 2, 3についてまとめる。 構築 fluentdのインストール 公式のドキュメントが一番わかり易い。 Installation | Flue
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog サイトオペレーション本部の渡邉です。 サイトオペレーション本部はデータセンタ・ネットワーク・サーバー・OS・ストレージといった全社的なインフラの管理運用や調査検証などを担当しています。 今回は、2013年に全社のプライベートクラウドとして導入した OpenStack の監視基盤として、OSS の Sensu と Graphite を採用した事例についてご紹介したいと思います。 採用に至るまで サイトオペレーション本部では、もともと 2011 年から内製のプライベートクラウドを開発運用していました。 プライベートクラウドでは VM のホストとなるハイパーバイザを大量に運用する必要がありますが、その監視基盤として社内で一般的に利用され
Sensu Advent Calendarに便乗して、Kaizen Platform, Inc.の2014年12月現在の監視アーキテクチャの話をちょっとしてみようと思う。 モニタリング領域 サービスを監視している領域 Pingdom Pingdom - Website Monitoring 外部ネットワークからのサービスの死活監視。アメリカ、ヨーロッパ、アジアなどの拠点からサービスの死活監視が出来るため、特定の地域からアクセス出来ない場合なのが検知出来る。 後述するstatuspage.ioとの連携で、障害を検知すると、サービスのステータス状況が自動で変わるようになっている Sensu Sensu | The open source monitoring framework. 監視フレームワーク サーバを内部ネットワークから監視するために利用 サーバのプロセス監視、サーバ間の疎通監視、エラ
・2年で月間10億PVを支えるまで成長した ZenClerkの運用上の工夫を紹介 ・AWSのTipsとあるある話の共有
「ZabbixのAPIを使って運用を楽しくする話」 'Serf orchestration with ZABBIX APIs' Serf the Liberator - 始まりの物語 ---- 1. ZABBIX API 超入門 ・シェルで始める ZABBIX API (言語知識不要) 2. Serf と Zabbix の連携 ・Serf とは? ・API を使えば、こんな事が簡単にできるよ! 3. 仕事は楽しいかね? ・ Serf the Liberator 【叛逆の物語】 ---- 第6回 ZABBIX-JP勉強会 http://atnd.org/events/48954 Masahito Zembutsu Apr 12, 2014 , Osaki Tokyo ZABBIX-JP 6th meetup #zabbix_jp
こんにちは、Hazama チームの萩原(@hagifoo)です。 ハードウェアは故障し、ソフトウェアにはバグがあり、運用ではミスがおきるもの。もちろん、障害が発生しないのが理想ですが人間が作ったものに完璧はありません。そこで、障害の前兆や発生を捉え、その詳細を運用チームに知らせるための監視システムが必要となります。cybozu.com でも以下のようにありとあらゆるものを監視するシステムを構築し日夜監視を行なっています。 今回は、そんな cybozu.com の監視(モニタリング)システムについてお話しします。 cybozu.com と障害 監視システムの設計 3つの監視 外形監視 症状監視・リソース監視 ログ監視 その他の監視 モニタリングフレームワーク 誰が監視者を監視するのか? まとめ cybozu.com と障害 まずは、監視対象である cybzou.com について説明します。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く