株式会社サイバーエージェントAI事業本部の2024年度 エンジニア新卒研修でシステム運用の基本と戦略に関する講義を行いました。
株式会社サイバーエージェントAI事業本部の2024年度 エンジニア新卒研修でシステム運用の基本と戦略に関する講義を行いました。
私個人の障害対応の経験と 一昨日参加したIncident Response Meetup vol.1での学びから 障害対応において大切だと感じていることをまとめる。 障害とは リリース後のシステムにおいてシステムの不具合やユーザーの操作ミスによってユーザー業務に影響が出ているもしくは出る恐れがあるもの。 障害対応の目的 システムを直すことではなく、ユーザー影響の回避・低減・早期回復をすること。 障害対応に対する心構え システムの信頼性の要である 障害への対応の仕方でユーザー影響が大きく変わる いつ発生するかわからないため特定の人が常に障害対応をするということは不可能である 素早く適切に行動するための備えが重要である 役割分担 障害対応では復旧対応、原因調査、ユーザーへの説明、社内調整などたくさんのことをやる必要がある。 またそれぞれの作業の難易度が高いことも多い。 一人の人間にできることは
この記事はエムスリーAdvent Calendar 2023の20日目の記事です。 エムスリーエンジニアリングG コンシューマチームの松原(@ma2ge)です。 今回はコンシューマチームで利用していたSaaSのメール配信システムを、新規に開発した社内システムに移行した経緯や設計時に意識したことなどについて紹介します。 最近使っているキーボードの様子 背景 今回移行する契機となったのはメールの配信数増加に伴うSaaSの利用料金増です。 特に定期的に送るメルマガ配信については、配信量も多く利用コストを押し上げる要因となっていました。 そのためメルマガ配信で大量に使用する部分についてのシステム移行検討が始まりました。 移行検討 SaaSから移行後のシステムについて試算すると、システムの開発や利用料といったコスト面では社内で構築したシステムの方が大幅にコストが下がることがわかりました。 しかしなが
ビジネスは基本的に成長していくものだし、拡大していくことが前提で、しかも最近だと「システム」が付いてくる。全部人力で作り上げるビジネスなんてあるのか。いや、ない。あるとしても小規模だろう。人だけで成り立つなんてビジネスを放置しても、きっともはや、人が集まらない。コンピューターによる自動化はない。全部人力だ。さあ仕事しなさいって、それは原始的だろう。あらゆる仕事場で自動化ありきの人間の仕事が増産されているのであり、人々もそういう職場を狙っている。時代遅れの職場で、かつそういう人力の仕事は生産性も低く給料も安いので、どんどん敬遠されるようになる。 さて、じゃあシステム化しました、と。システム化するための要員はまだいるようだ。各社ベテランが腕を奮っている。DXの掛け声でクラウドもあって生産性は上がり、システムと名の付くものが量産されている。わかっている、システム構築のスピードは10年前と比べると
こんにちは、ウィルゲートで開発室開発基盤ユニットのマネージャーをしている池添(@for__3)です。 ウィルゲートでは2019年に監視システムをPrometheusに移行して運用して来ました。 tech.willgate.co.jp tech.willgate.co.jp ですが、社内のメンバーの入れ替わりとともにPrometheusの設定や運用を理解しているメンバーも減ってきていました。 そこで、改めてPrometheusのできることやPrometheusを使った監視の仕組みについての社内勉強会を行いました。 今回はその際の資料の一部をブログ用に修正しました。 監視システム全体の構成 Prometheus Exporter node_exporter blackbox_exporter nginx_vts_exporter proxy_exporter まとめ 監視システム全体の構成 『
「システム運用アンチパターン - Forkwell Library #4」でお話しした際の資料となります。 https://forkwell.connpass.com/event/256481/ 動画はこちら。 https://youtu.be/hQAeMgXsZWc
上層部がDevOpsに理解のない組織で働き、組織構造を変える権限を持っていない開発者であっても、チームにDevOpsを導入するための現実的な方法を紹介します。 重厚な承認プロセス、可視化されていない運用、プロセスの最後でのみ行われるソフトウェアテスト、ノイズだらけのアラート、インシデントから学習しない習慣、時間外のデプロイ、情報のため込みなどを取り上げ、ソフトウェアシステムの開発運用が滞るチームや組織に共通してみられる陥りがちな状況や犯しがちな間違いをアンチパターンとして紹介します。そして管理職やマネージャでなく、エンジニアが実行し、繰り返すことで改善できる具体的な行動を解説します。 組織で必要とされる変化を、エンジニアが行動することで実現する本書は、ソフトウェアシステムをよりよく開発運用したいエンジニア必携の一冊です。 目 次 序文 本書について 1章 DevOpsを構成するもの 1.1
『システム運用アンチパターン ―エンジニアがDevOpsで解決する組織・自動化・コミュニケーション』 Jeffery D. Smith 著、田中 裕一 訳 2022年4月12日発売予定 352ページ ISBN978-4-87311-984-7 定価3,520円(税込) 上層部がDevOpsに理解のない組織で働き、組織構造を変える権限を持っていない開発者であっても、チームにDevOpsを導入するための現実的な方法を紹介します。 重厚な承認プロセス、可視化されていない運用、プロセスの最後でのみ行われるソフトウェアテスト、ノイズだらけのアラート、インシデントから学習しない習慣、時間外のデプロイ、情報のため込みなどを取り上げ、ソフトウェアシステムの開発運用が滞るチームや組織に共通してみられる陥りがちな状況や犯しがちな間違いをアンチパターンとして紹介します。そして管理職やマネージャでなく、エンジニア
太陽光をエネルギー源として飛ぶ、エアバスが開発中のソーラー飛行機「Zephyr(ゼファー)」が、およそ18日にわたるテスト飛行を無着陸で終えたことがわかりました。Zephyrは単なる飛行機ではなく成層圏プラットフォームシステム(HAPS)としての役割も期待されており、「成層圏で長距離飛行が可能な唯一のHAPS」としての性能を見せつける形になったとのことです。 Airbus Zephyr Solar High Altitude Platform System (HAPS) reaches new heights in its successful 2021 summer test flights - Space - Airbus https://www.airbus.com/newsroom/press-releases/en/2021/10/airbus-zephyr-solar-high
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、社内IaaS(Infrastructure as a Service)の構築・運用などを行っている奥野です。私たちのチームはヤフー内のIaaS基盤の開発及び運用を担当しています。 IaaSとはサーバーやストレージ、ネットワークといったインフラリソースを仮想的に定義し、ユーザーへ提供するサービスです。ヤフーのIaaS基盤は社内のユーザーやサービスに対して幅広く提供しており、ヤフーがエンドユーザーに対して公開している多くのサービス(Yahoo!ニュースや、ヤフオク!など)もこのIaaS基盤を利用しています。 本項では、「構築編」と「運用編」という前後編でこのヤフーのIaaS基盤についてご紹介します。 本記事では「運用編」と
コロナ禍の経済対策として政府が国民に一律10万円を配る「特別定額給付金」のオンライン申請で自治体の業務が混乱している――。2020年5月から6月にかけ、新聞やテレビは連日、この話題を取り上げた。 マイナンバーカードとマイナポータルの「ぴったりサービス」を使って2020年5月1日に始まったオンライン申請は、申請者による氏名や住所などの誤入力や二重申請が相次いだ結果、自治体が持つ住民情報との照合に多大な手間がかかったという。総務省は2020年6月2日、同月1日までに43自治体がオンライン申請の受け付けを停止したと明らかにした。 ただし実際には、オンライン申請が総じて「ダメ」だったわけではない。混乱する自治体職員の姿がテレビで報道される陰で、狙い通り早期の給付にこぎ着けた自治体も多かった。 ある都内の自治体はExcelの手製ツールを使い、申請データと給付対象者リストを突合し、世帯構成人数の一致を
はじめに コンピュータの世界では「性能」および「性能測定」という言葉があります。これらの言葉にはたくさんの意味があるのですが、業務システムの構築、運用にかかわったような人でなければ、「PCの新しいパーツに対して様々なベンチマークソフトウェアを走らせること」が性能測定であり、その結果得られるものが「性能」といったところでしょう。本記事ではそれ以外の、業務システムにおける性能や性能測定について述べます。 性能 ひとくちに性能といっても、さまざまな指標があります。代表的なものは「スループット」、「IOPS」、そして「レイテンシ」です。これらについてストレージデバイスを例に説明します。 スループットは単位時間あたりにどれだけのデータを送受信できるかであり、XX MB/sやYY GB/sのようにあらわします。性能といって一番イメージしやすいのはこれでしょう。スループットが重要な意味をもつのは大きなデ
こんにちは、ぐるなびのインフラを担当している飯田です。 私の所属するグループでは、ぐるなび全体のサイトインフラの構築や運用を行っています。 私自身は、新卒で入社して今年で四年目となります。現在は、ぐるなび全体の仮想基盤やコンテナ基盤の運用、IaCなどを主に担当しています 。 今回は、我々が開発し提供している社内システムをコンテナ化し、そこでどういう技術に取り組んでいるかという話をしたいと思います。 インフラが提供する社内システムとは ぐるなびでは、サーバの払い出しやミドルウェアの設定変更などが発生する度にインフラへ依頼し、それに対してインフラが対応するフローをとっています。 このフローだと間接工数が増え、サービスの開発スピードが遅くなるなどの課題がありました。 そのため、開発効率やスピードの向上のため一部のオペレーションに対してGUI化やAPI化を実施し、社内システムとして提供しています。
こんにちは! Mackerelチーム CREの井上(id:a-know)です。こちらのブログではお久しぶりとなります。 さて今回は、昨日・8月2日(木)に開催した Mackerel の公式イベント、Mackerel Meetup #12 Tokyoの開催レポートをお届けします! 公式ミートアップとしては、前回から約半年ぶりの開催となりました。参加できた方も、そうでない方も、ぜひこちらのレポートで会場の雰囲気を味わっていただけたら、と思います! 開催会場はドリコム様のセミナースペース & カフェスペース! Mackerel Meetup の第12回会場となる場所をお借りさせていただいたのは、Mackerelのユーザーさまでもある株式会社ドリコム様! ミートアップを開催する度に思うのですが、毎回このような素敵な会場をお借りすることができて、本当にありがたい限りです......! 受付の様子。ク
いきなりですが皆さん、システムの保守・運用っていうと、どんなことする仕事なのかってご存知ですか? 勿論、一言で保守とか運用って言っても、対象となるシステムにもよりますし、担当者の守備範囲にも、契約の内容にもよるんで、あまり一概に言える話でもないんです。 ないんですが、それを承知でざくっと言ってしまうと、例えば一般的なwebシステムでいえば、 ・システムの負荷監視、死活監視、パフォーマンス監視 ・トラブル時の調査・問題切り分け・障害対応 ・インフラの故障対応 ・ネットワーク監視 ・バックアップ対応 ・定期メンテナンス ・ジョブ管理 ・マニュアル・ドキュメント管理 ・障害対応訓練 ・バージョン管理・変更管理 ・ログ管理 ・セキュリティパッチ対応 ・瑕疵対応、バグ対応 ・修正開発時の事前調査 この辺については、まあ代表的な保守・運用の仕事と言ってもそんなに問題ないでしょう。正確にいうと、保守と運
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 本連載「企業セキュリティの歩き方」では、セキュリティ業界を取り巻く現状や課題、問題点をひもときながら、サイバーセキュリティを向上させていくための視点やヒントを提示する。 セキュリティ対策とマネジメント 前回と前々回では、IT業界全体にはびこる「運用でカバー」なる文化が生まれた経緯を説明した。その構造への反発がどれだけ多くても、業界全体に染み付いた商習慣や既得権など大きなハードルによって打開されない状況も述べた。今回からセキュリティ対策に話題を移し、どうしても多くなりがちなシステムのリプレースにおけるセキュリティ強化策について解説する。 2016年4月、経済産業省が実施する情報処理技術者試験で「情報セキュリティマネジメント試験」が新設され
多くの企業のITシステムは、サーバやネットワーク機器、ストレージなどのさまざまなハードウェアとそこで稼働するソフトウェア、そして外部のサービスなどが連係して動作しています。 この複雑なシステム全体が正常に稼働しているかどうかを管理・監視するためにもっとも重要な情報として、それぞれのハードウェアやソフトウェアが吐き出すログがあります。 ログはシステムを構成するさまざまなコンポーネントから秒ごと分ごとに出力されるため、一定以上のシステム規模であれば、その容量と増加速度はいわゆるビッグデータの1つと言えるでしょう。 そこで求められるのが、ログを横断的に分析し、可視化と知見をもたらしてくれるソリューションです。この分野でいま、存在感を急速に高めているのが統合ログ管理を実現するソフトウェア「Splunk」(スプランク)です。
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 6月8~10日まで幕張メッセで開催されたInterop 2016にUbuntuの開発元であるCanonicalの創業者 Mark Shuttleworth氏が登壇。インターネットとオープンソースソフトウェアが抱える課題に関して「Success is all about Operation」と題して講演した。 満員の参加者に向けて語った「運用が重要」というメッセージ Interop初日に行われた、約500人のキャパシティに対して1000人以上の参加希望があったというShuttleworth氏の基調講演だが、タイトルが示すようにITによる成功とはもはや機能や価格競争力ではなく「運用をいかに効率良くできるか」にかかっているというものであった。
最近、取材先から「DevOps(デブオプス)」の話題を聞くケースが増えてきた。DevOpsに厳密な定義はないが、一般的には「開発チームと運用チームが一丸となり、ビジネス上の効果を高めるため、短サイクルでシステムを改善し続ける取り組み」といった意味だろう。 このうち「ビジネス上の効果を高めるため、短サイクルでシステムを改善し続ける」という部分に着目すると、現在のDevOpsには、大事なピースが二つ欠けているように思う。 一丸となるべきは開発と運用だけではない その一つは「利用部門」である。 ビジネス上の効果を高めるシステム改善を行う上では、利用部門が起点になる。利用部門が既存システムの改善要望を出し、それを開発チームと運用チームが一丸となったITチームが受け付け、実現していく。その際、改善要望を単に受け付ければいいわけではない。詳しくは後述するが、利用部門に要望の目的を確認したり優先順位付け
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く