並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 1682件

新着順 人気順

SREの検索結果41 - 80 件 / 1682件

  • 【AWS】ぼくのかんがえたさいきょうの運用・監視構成 - Qiita

    AWSのインフラを運用・監視する上で使いやすいと思ったサービスを組み合わせて構成図を作成しました。それぞれのサービスの簡単な説明と類似サービスの紹介、また構成の詳細について説明していきます。 (開発で使用するようなサービスも紹介しますが、あくまでも運用・監視だけの構成です。) 各個人・企業によって環境は違うと思いますし、使いやすいと思うサービスは人それぞれだと思うので、これが正解という訳ではありませんが、参考にしてただければ幸いです。 参考になった教材を紹介した記事も作成しました。是非読んでみてください! 【AWS】さいきょうの運用・監視構成を作成するのに参考になった書籍 インフラエンジニア1年生がプログラミングを勉強するのに使った教材 全体図 こちらがAWSにおける"ぼくのかんがえたさいきょうの"運用・監視構成です。複雑で分かりづらいかと思うので、詳細に説明していきます。最後まで読めばこ

      【AWS】ぼくのかんがえたさいきょうの運用・監視構成 - Qiita
    • ShellScriptで自動化を楽にしたい時に知っておいても良いこと | sreake.com | 株式会社スリーシェイク

      はじめに こんにちは、皆さん。今日は、シェルスクリプトを使った高度な自動化のベストプラクティスとパターンについて解説します。これらは、ちょっとした知識で実行でき、作業を大幅に効率化できるTipsです。シェルスクリプトは、特にUNIX系システムでの自動化タスクに欠かせないツールです。適切に使用すれば、複雑なタスクを効率的に、そして信頼性高く実行できます。 トイルとは、反復的でマニュアルな作業のことを指します。これには、例えば、手動でのシステムのスケーリングや、エラーのトラブルシューティング、ルーティンなメンテナンス作業などが含まれます。トイルを特定し、それを自動化することで、エンジニアはより創造的なタスクやプロジェクトに焦点を合わせることができます。 トイルを判別する方法としては、以下のような基準が挙げられます: 手作業であること 完全な手作業だけでなく、「あるタスクを自動化するためのスクリ

        ShellScriptで自動化を楽にしたい時に知っておいても良いこと | sreake.com | 株式会社スリーシェイク
      • GitHubが障害を総括、43秒間のネットワーク断が1日のサービス障害につながった:データベースの不整合解消に時間 - @IT

        GitHubが障害を総括、43秒間のネットワーク断が1日のサービス障害につながった:データベースの不整合解消に時間 GitHubは2018年10月30日(米国時間)、2018年10月21日16時頃(米国太平洋時)から約24時間にわたって発生した障害に関する分析報告を、同社のブログに掲載した。これによると、ネットワーク機器の部品交換で生じた43秒のネットワーク接続断が、GitHubのメタデータ管理データベースの不整合を引き起こし、復旧に時間を要したという。 GitHubは2018年10月30日(米国時間)、2018年10月21日16時頃(米国太平洋時)から約24時間にわたって発生した障害に関する分析報告を、同社のブログに掲載した。これによると、ネットワーク機器の部品交換で生じた43秒のネットワーク接続断が、GitHubのメタデータを管理するデータベースの不整合を引き起こし、復旧に時間を要した

          GitHubが障害を総括、43秒間のネットワーク断が1日のサービス障害につながった:データベースの不整合解消に時間 - @IT
        • 良いドキュメントを書きたくなる本を読んだらドキュメンタリアンになりたくなった - じゃあ、おうちで学べる

          ドキュメンタリアンとは、役職に関係なく、ソフトウェア業界でドキュメントとコミュニケーションに関心を持つ人のことです。 www.writethedocs.org はじめに これは主に『ユーザーの問題解決とプロダクトの成功を導く エンジニアのためのドキュメントライティング』の書評です。私はSreakeにてSREという役職についています。SREはサービス概要、アーキテクチャの解説や図、各種構成図、各種手順書、ポストモーテム、ポリシー、SLA(SLO) … その他の様々な場面でドキュメントを書く必要があります。しかし、ドキュメントは価値が見えにくく時間と労力がかかり品質担保の面で重要度がとても高いのにその場での価値が見えにくいので浸透しにくいです。そのため、エンジニアとしてモチベーションが保ちづらいです。2021年 State of DevOps 2021 にもドキュメントに関する言及があり今後、

            良いドキュメントを書きたくなる本を読んだらドキュメンタリアンになりたくなった - じゃあ、おうちで学べる
          • Books For Site Reliability Engineering

            By: Heather Adkins, Betsy Beyer, Paul Blankinship, Ana Oprea, Piotr Lewandowski, Adam Stubblefield Can a system be considered truly reliable if it isn't fundamentally secure? Or can it be considered secure if it's unreliable? Security is crucial to the design and operation of scalable systems in production, as it plays an important part in product quality, performance, and availability. In this bo

            • Googleによるシステム開発・維持管理ノウハウをまとめた本が無料公開中

              Googleで培われたシステム管理とサービス運用の方法論である「サイトリライアビリティエンジニアリング(SRE)」のノウハウをまとめた本が「Site Reliability Engineering」です。英語版の内容が無料で公開されているほか、オライリーから発刊予定のSREに関する書籍「The Site Reliability Workbook」も、2018年8月23日までの期間限定で公開されています。 Google - Site Reliability Engineering https://landing.google.com/sre/book.html Site Reliability Engineeringを読むには上記のサイトにアクセスし、「READ ONLINE FOR FREE」をクリック。 目次が表示されるので、まずは序文から読んでみます。「Foreword」をクリック。

                Googleによるシステム開発・維持管理ノウハウをまとめた本が無料公開中
              • Cookpad TechConf 2017 提供 Wi-Fi の裏側 - クックパッド開発者ブログ

                インフラ部 id:sora_h です。 先週開催された Cookpad TechConf 2017 如何でしたでしょうか。わたしは TechConf において Wi-Fi を担当していて、こちらも好評いただいたようでなによりでした。 というわけで、この記事では TechConf 2017 における Wi-Fi についての詳細を紹介します。 ネットワーク機器設定・サーバー mitamae レシピ等の公開 https://github.com/cookpad/techconf2017-network 今回の紹介する構成のうち、ネットワーク機器およびサーバ側の設定等、ほとんどを GitHub で公開しています。参考までにどうぞ。 TechConf 2017 NOC メンバー 実は外注などはしておらず、社内 IT と SRE グループのメンバーで構成されていました。 メイン (設計・運用・設営)

                  Cookpad TechConf 2017 提供 Wi-Fi の裏側 - クックパッド開発者ブログ
                • Slack のインフラはどのように進化してきたか?

                  NewsPicksのエンジニア採用サイトです。さまざまな強みを持つエンジニアが、自分たちの個性を活かし、未来を創るための挑戦をしてる自由な環境で、一緒に世の中をおもしろくしてみませんか?

                    Slack のインフラはどのように進化してきたか?
                  • Webシステムアーキテクチャの地図を描く構想 - ゆううきブログ

                    この記事は第5回Webシステムアーキテクチャ研究会の予稿です。 はじめに Webサービスにおいては、スマートフォンの普及によるアクセス増加に対してスケーラビリティを持ち、個人向けだけでなく企業向けサービスの可用性の要求に耐えられるようなシステム設計が必要とされている。 さらに、Webサービスが人々の生活に浸透したために、Webサービス事業者はサービスを長期間運用することが当たり前となっている。 その間、新機能開発、ソフトウェアの実行効率化、セキュリティ向上などを目的に、システム管理者は自身が管理するソフトウェア群を更新しつづける必要がある。 このような多様な要求を満たすために、Webサービスを開発・運用するエンジニアには、OSやデータベース、ネットワーク、分散システム、プログラミング言語処理系などのコンピュータ工学における広範囲の基礎知識と、ミドルウェア、オペレーション自動化のためのソフト

                      Webシステムアーキテクチャの地図を描く構想 - ゆううきブログ
                    • こんばんは、X-Forwarded-For警察です - エムスリーテックブログ

                      エムスリーエンジニアリンググループ製薬企業向けプラットフォームチームの三浦 (@yuba)です。普段はサービス開発やバッチ処理開発をメインにやっておりますが、チームSREに参加してからはこれに加えて担当サービスのインフラ管理、そしてクラウド移行に携わっています。 今回はそのクラウド移行の話そのものではないのですが、それと必ず絡んでくるインフラ設定に関してです。 アクセス元IPアドレスを知りたい Webアプリケーションがアクセス元IPアドレスを知りたいシーンというのは、大まかに二つかと思います。ログ記録用と、アクセス制限ですね。どちらもアプリケーションそのものではなく手前のWebサーバの責務のようにも思えますが、そうとも言い切れません。動作ログ、特に異常リクエストをはじいた記録なんかにセットでIPアドレスを付けたいとなるとアプリケーション要件ですし、アクセス制限についてもマルチテナントサービ

                        こんばんは、X-Forwarded-For警察です - エムスリーテックブログ
                      • 全AWSエンジニアに捧ぐ、CloudWatch 設計・運用 虎の巻 / CloudWatch design and operation bible

                        全AWSエンジニアに捧ぐ、CloudWatch 設計・運用 虎の巻 / CloudWatch design and operation bible

                          全AWSエンジニアに捧ぐ、CloudWatch 設計・運用 虎の巻 / CloudWatch design and operation bible
                        • もしもいま、インフラ技術をイチから学ぶならどうしたい? 現役SRE・Yutaさんが考える学習ロードマップ - Findy Engineer Lab

                          めまぐるしく変化するテックの世界。技術を身に着けるうえで学ぶべきポイントや学習環境なども年々変わっています。 そこで「もしもいまの環境で、テックのことをイチから学び直すことになったら、自分はどんな風に勉強したいか」というIFストーリーを通じて、技術との向き合い方を考え直してみる企画「テック転生」。 今回は、FinTech企業のSREを務めるYutaさん(@Y0u281)に“自分だったらこう進めたい、インフラ技術の学習ロードマップ”を伺いました。 パブリッククラウドが当たり前になった今、インフラ技術を学ぶスタート地点は? サーバー構築の次は、ネットワークと資格の勉強を Linuxとネットワークを学んだらいよいよAWSの学習へ 自分が学んだ時より学習コンテンツが豊富 コミュニティを活用すると情報が増えてモチベーションも高まる パブリッククラウドが当たり前になった今、インフラ技術を学ぶスタート地

                            もしもいま、インフラ技術をイチから学ぶならどうしたい? 現役SRE・Yutaさんが考える学習ロードマップ - Findy Engineer Lab
                          • バックエンドに興味を持つ学生にオススメするクラウド系メインのリンク10選 - y-ohgi's blog

                            概要 学生氏に適当なことを言い過ぎ反省しているので、バックエンドのいま覚えてる良かった記事の共有です。 まっさきにみるやつ Web 系エンジニアの学習ロードマップです。 とりあえずこのロードマップにのってる"紫のチェックマーク"がついたものを順番にこなしていけば良いとおもいます。backend のロードマップを紹介しましたが他にもfrontend やdevops などもあります。しかも毎年更新してくれます。 この記事はこのロードマップ以上の情報は提供できません。おわり。 roadmap.sh その他 エンジニアリングについては雑に調べると歴戦のエンジニア各位が紹介してくださってるので、クラウド系をメインに紹介します。 一般的なやつ タイトルママ。 バックエンドというよりエンジニアリング全般。 japan.googleblog.com 技術記事に特化したキュレーションサービスです。 追いたい

                              バックエンドに興味を持つ学生にオススメするクラウド系メインのリンク10選 - y-ohgi's blog
                            • 非ITの事業会社にSREと言わずにSREを持ち込んだ

                              SRE NEXT 2022 2022-05-15 14:15〜15:00 Track A 非ITの事業会社にSREと言わずにSREを持ち込んだ #srenext

                                非ITの事業会社にSREと言わずにSREを持ち込んだ
                              • メルカリにおける、継続的なアプリケーション改善を支える技術 #retty_tech_cafe // Speaker Deck

                                メルカリにおける、継続的なアプリケーション改善を支える技術 - Retty Tech Cafe #5 2016/03/12

                                  メルカリにおける、継続的なアプリケーション改善を支える技術 #retty_tech_cafe // Speaker Deck
                                • 「Ask What, not Why」 失敗したときに自信を失いかけたら実行しているメンタル転落回避術 - Money Forward Developers Blog

                                  半年ぶりのカキコ……ども……。気づいたらHRソリューション本部からMFBC-CTO室に異動していたVTRyoです。兼任で引き続きHR系のマネーフォワード クラウドシリーズも担当しています。 ソフトウェアエンジニアとしての経験値が増えてくると、次第にレビュー担当者になることが増えてくるでしょう。私が所属するSREチームでもTerraformの相互レビューが頻繁に実施されています。そこで、事件は起きたのです。 自信を持ってApproveしたPull Requestで次々に事故が起きてしまった 現在HR内のマネーフォワード クラウドシリーズは、モダンな開発基盤へとリプレイス作業を多く行っています。これまで動いていた基盤に感謝しつつ、新しいPlatformへと移行し、最終的に元あったリソースを削除します。 事件はこの リソース削除 で起きました。 チーム内レビュー OK リポジトリ管理者レビュー

                                    「Ask What, not Why」 失敗したときに自信を失いかけたら実行しているメンタル転落回避術 - Money Forward Developers Blog
                                  • 大規模システムでの Linux のメモリ管理

                                    (This post is also available in English.) この記事は Linux memory management at scale を 著者の Chris Down さんの許可 を得て Hiroaki Nakamura が日本語に翻訳したものです。 原文のライセンス は CC BY-SA 4.0 であり、翻訳のライセンスも同じく CC BY 4.0 とします。 cgroup2 プロジェクトでの私の仕事の一部として Linux システムのリソース管理についてエンジニアと話すことに多くの時間をかけてきました。 これらの会話を通じてどんどん明らかになってきた 1 つの事実は多くのエンジニアは、シニア SRE たちでさえも、 Linux のメモリ管理についていくつかのよくある誤解を持っていて、そしてそれが彼らがサポートするサービスやシステムが本来確実に稼働したり効率的

                                      大規模システムでの Linux のメモリ管理
                                    • oreilly.com

                                      More than 5,000 organizations count on our digital courses and more to help their teams learn the tools and technologies that drive business outcomes. We can help yours too. New AI policy for O’Reilly authors and talent O’Reilly president Laura Baldwin shares the company’s ethical approach to leveraging GenAI tools and ensuring O’Reilly experts are compensated for their work. Read it now It’s time

                                        oreilly.com
                                      • 30分でわかるデータ指向アプリケーションデザイン - Data Engineering Study #18

                                        600ページを超える書籍である「データ指向アプリケーションデザイン」の要点を最近の話題を交えながら解説します。 Data Engineering Study #18 の発表資料です プレゼンテーション https://www.youtube.com/watch?v=ZiKWXc0fSCw イベントURL https://forkwell.connpass.com/event/269125/ データ指向アプリケーションデザイン https://www.oreilly.co.jp/books/9784873118703/

                                          30分でわかるデータ指向アプリケーションデザイン - Data Engineering Study #18
                                        • みずほ銀行 障害の原因はハードディスクの経年劣化(テレビ朝日系(ANN)) - Yahoo!ニュース

                                          みずほ銀行は8月から先月まで4回発生したシステムなどの障害について、ハードディスクの経年劣化などが原因だったと公表しました。 みずほ銀行は8月20日に店頭での取引の一部ができなくなった障害について、データセンターのハードディスクが稼働から6年経って劣化していたことに気付かず、故障したことが原因だと明らかにしました。 この際、バックアップシステムに切り替えようとしましたが、入力すべき追加の指示を飛ばしたため失敗しました。 8月23日や先月8日に100台以上のATMが一時停止したケースではネットワーク機器に静電気などが生じエラーが発生した可能性が高いということです。 再発防止のため、みずほ銀行は6年前のシステム構築に携わった富士通や当時の技術者らとの関係を強化する方針です。

                                            みずほ銀行 障害の原因はハードディスクの経年劣化(テレビ朝日系(ANN)) - Yahoo!ニュース
                                          • インフラにかかるコストを正しく「説明」するための取り組み - クックパッド開発者ブログ

                                            技術部 SRE グループの mozamimy です。 クックパッドでは、 SRE が中心となって、サービスを動かす基盤の大部分である AWS のコスト最適化を組織的に取り組んでいます。 昨年夏に公開した記事である、インフラのコスト最適化の重要性と RI (リザーブドインスタンス) の維持管理におけるクックパッドでの取り組みでは、 なぜインフラのコスト最適化が必要なのか、具体的にどのような考え方に沿って進めてゆけばよいのか。 SRE が一括して管理する AWS のリソースプールそのもののコスト最適化を実践するための具体的な取り組みの一例として、RI のモニタリングや異常時の対応フローによる維持管理。 といった話題にフォーカスしました。 今回は、インフラにかかるコストを正しく「説明」するための取り組みということで、コスト最適化に貢献する社内アプリケーションである Costco (Cost Co

                                              インフラにかかるコストを正しく「説明」するための取り組み - クックパッド開発者ブログ
                                            • 60億円の損害を出した 「DMMブックス」 70%OFFキャンペーンでプラットフォームに何が起きていたか

                                              ログ基盤をCloudWatchLogからNewRelic Logs + S3に変えたら 利便性も上がってコストも下がった話

                                                60億円の損害を出した 「DMMブックス」 70%OFFキャンペーンでプラットフォームに何が起きていたか
                                              • 2019年SRE考 - ゆううきブログ

                                                この記事では、自分が数年Site Reliability Engineering (SRE)を実践しつつ、SREについて考えてきたことをまとめる。 先月開催されたMackerel Drink Up #8 Tokyoと先日開催された次世代Webカンファレンス 2019では、SREについて集中的に議論する機会に恵まれたため、脳内メモリにキャッシュされているうちに、SREに関する私的な論考をまとめておく。 (以降では、SRE本の原著にならい、技術領域名を指すときはSRE、職種名を指すときにSREsと表記する。) SREとの関わり なぜSREに関心をもったのか 2015年にメルカリさんがSREチームを発足したときに、SREsの存在を知り、SREsはシステム管理者、Webオペレーションエンジニア、インフラエンジニアといった既存の職種を置き換えていくものだと理解した。 当時、自分が注目したのは、SRE

                                                  2019年SRE考 - ゆううきブログ
                                                • AWS監視アラート 事始め - mazyu36の日記

                                                  はじめに 入門監視をはじめ一般的な監視に関するプラクティスは出回っているものの、AWSで具体的に何を監視するか?そのとっかかりについてはあまり出回っていないような気がします。 AWSの監視ってみんな何監視してるんすか…っていうぐらい実例あまり見つからないな。門外不出?— mazyu36 (@mazyu36) 2023年2月14日 どこまで監視するかは基本的にシステムの特性によると思います。一方でAWSのサービスごとにシステムによらずよく監視で使う項目というのもあるかと思います。 今回は過去の経験をもとに、最低限この辺りは監視することが多いかなというものをまとめてみます。全体像としては以下になります。 最低限これは監視しないとダメでしょ、とかこれは不要でしょ、などなどあるかと思います。そういうのがあればぜひコメントいただきたいです。 はじめに 「監視」について 前提 1-1. Webサービス

                                                    AWS監視アラート 事始め - mazyu36の日記
                                                  • Webアプリケーションのパフォーマンス・チューニングの勘所 / web tuningperformance

                                                    # 参考資料 - https://speakerdeck.com/hanhan1978/purohuairawoshi-tutaphpapurikesiyongai-shan-falsekan-suo - https://speakerdeck.com/hanhan1978/web-application-tuning-guildline - https://speakerdeck.com/soudai/basic-of-rdb - https://speakerdeck.com/soudai/shi-xing-ji-hua-falsehua - https://fortee.jp/phpcon-2021/proposal/1e11a6b1-08d9-4044-9909-4c90105ea726 - https://fortee.jp/phperkaigi-2021/proposal/1d

                                                      Webアプリケーションのパフォーマンス・チューニングの勘所 / web tuningperformance
                                                    • 2022年4月に発生したアトラシアンのサービス停止に関するインシデント事後レビュー | Atlassian Japan 公式ブログ | アトラシアン株式会社

                                                      本ブログは、こちらに掲載されている英文ブログの意訳です。万が一内容に相違がある場合は、原文が優先されます。また、PDF版をダウンロードいただけます。 はじめに – 共同創業者兼共同最高経営責任者より 2022年4月上旬に発生した障害により、お客様へのサービス提供が中断されたことをお詫び申し上げます。私たちは、当社の製品がお客様のビジネスにとってミッションクリティカルであることを理解しており、その責任を重く受け止めています。今回の全責任は私たちにあり、影響を受けたお客様の信頼を回復するために尽力しています。 アトラシアンのコア バリューの 1 つに「オープンな企業文化、デタラメは無し (Open company, no bullshit)」というものがあります。この価値を実現する取り組みの一環として、インシデントについてオープンに議論し、学びにつなげています。そして、このインデント事後レビュ

                                                        2022年4月に発生したアトラシアンのサービス停止に関するインシデント事後レビュー | Atlassian Japan 公式ブログ | アトラシアン株式会社
                                                      • Infrastructure-as-Code-is-very-tired

                                                        ChatGPT関連情報の追い方、個人・業務での使い方、サービスへの組み込み方、 ABEJAでの取り組み4例、ここ2週間のトピックなど行けるところまで

                                                          Infrastructure-as-Code-is-very-tired
                                                        • データエンジニアの私が機械学習・データサイエンスでオススメしたいスキルマップと本まとめ - 2020年版 - Lean Baseball

                                                          要約すると, データサイエンス・機械学習周りでよく聞かれること&回答を言語化しました. 「データサイエンティストやりたい」「機械学習エンジニアになりたい」というキャリア志望を持つ方は多いと思います. 私の周りでも, 公私ともにそんな志望者の相談を聞いたり, (主にインターンの学生さんですが)一緒に仕事をしたりする機会もメッチャ多いです. 「ビジネスサイド強いマン」「サーバーサイドエンジニア」という視点からデータエンジニア兼データサイエンティストな自分が, そんな彼ら彼女らにオススメしている, データサイエンティストを目指すためのスキルマップ 各領域のスキルアップを実現するためにオススメしたい書籍 を紹介したいと思います. なお, 昨年も同様のエントリーを書いておりそのUpgrade版となります. shinyorke.hatenablog.com このエントリーの対象読者 データサイエンスに

                                                            データエンジニアの私が機械学習・データサイエンスでオススメしたいスキルマップと本まとめ - 2020年版 - Lean Baseball
                                                          • Webアプリケーションのログに関するいくつかの考察 - Hatena Developer Blog

                                                            こんにちは、はてなでWebアプリケーションエンジニアをやっている id:polamjag です。 最近のはてなでは、若手エンジニアを中心として、いろいろな技術を見つめ直すワーキンググループをやっています。先日、id:onk も「デプロイ今昔」という記事を書きましたが、このエントリーはそのシリーズの続きで、ワーキンググループの「ログ」の回で議論したこと・話題になったことをまとめました。 Web開発におけるログを見つめ直す ログを4つの目的で分類する 目的ごとに求められる取り扱いの要求水準 いまどきのログフォーマットについて まとめ:どう実装するかを模索していく Web開発におけるログを見つめ直す Webサービス(Webアプリケーション)の運用には、多種多様なログがついてまわります。多くのミドルウェアは何もしなくてもそれなりの量のログを出力しますし、クラウド上のマネージドサービスも然りです。行

                                                              Webアプリケーションのログに関するいくつかの考察 - Hatena Developer Blog
                                                            • 長年運用されてきたモノリシックアプリケーションをコンテナ化しようとするとどんな問題に遭遇するか? / SRE NEXT 2022

                                                              2022年5月15日(日)に開催されたSRE NEXT 2022 Day 2の登壇資料です。 ▼SRE NEXT 2022オフィシャルサイト https://sre-next.dev/2022/ ▼発表の概要 https://sre-next.dev/2022/schedule#jp20

                                                                長年運用されてきたモノリシックアプリケーションをコンテナ化しようとするとどんな問題に遭遇するか? / SRE NEXT 2022
                                                              • 30分でわかるシステム運用アンチパターン / Operations Anti Patterns in 30 minutes

                                                                「システム運用アンチパターン - Forkwell Library #4」でお話しした際の資料となります。 https://forkwell.connpass.com/event/256481/ 動画はこちら。 https://youtu.be/hQAeMgXsZWc

                                                                  30分でわかるシステム運用アンチパターン / Operations Anti Patterns in 30 minutes
                                                                • インフラ自動化の落とし穴と宣言的アーキテクチャ

                                                                  2020/07/14 Cybozu Tech Meetup #3

                                                                    インフラ自動化の落とし穴と宣言的アーキテクチャ
                                                                  • 大企業でプロダクトエンジニアとして働いたら、コーディングのスキルが下がっていた

                                                                    背景 Shopifyという会社に1年半前に転職しました。あれよあれよと会社が拡大して、現在は従業員一万人弱くらいです。 画像元 公式ではない雑な情報です。あくまでイメージ その前はChartmogulという、せいぜい20人、30人ぐらいの会社にいました。 なぜ表題のようなことを思ったか 面接インタビュアー側として、出題することになるコーディング問題を自分で試しに解いていました。一年半前には自分が受ける側の立場だったので、自分の腕前の定点観測ができました。 やってみてどうだったか。 コーディングにおけるシャープさという観点では明らかに衰えているな、と思いました。問題が与えられて、それに短時間で、論理的に向き合う力とでもいうのでしょうか。 自分は現職でマネージャの立場になったわけでもないので、これはマズイ。なんとなくこの一年くらいそんな気はしていたので、これを機会にもうちょっと深堀してみます。

                                                                      大企業でプロダクトエンジニアとして働いたら、コーディングのスキルが下がっていた
                                                                    • facebookの13億ユーザーを支えるロードバランサーの話 - stanaka's blog

                                                                      最近、SREが話題ですね。 tech.mercari.com www.wantedly.com ということでSREについて調べてたら、SREconなんてものが開催されていたので中を見てたら、「Building a Billion User Load Balancer」というタイトルでFacebookのDNS〜LBまでの話があったので、そのメモです。 Building a Billion User Load Balancer | USENIX tl;dr tinydns + IPVS で Facebook規模はいける httpsの接続確立はかなり重い(RTTの4倍 = RTT 150msとするとGETまで600ms)ので、太平洋越えとかは厳しい httpsを終端させるCDNとかは活用の可能性ありそう (国内だけを考慮するなら影響は軽微かも) メモ L4 LB shiv (IPVS + pyt

                                                                        facebookの13億ユーザーを支えるロードバランサーの話 - stanaka's blog
                                                                      • 2024年に読んだほうがいいエンジニアな書籍10冊+α - CloudとSREそしてキャリア本 - Lean Baseball

                                                                        Google Cloud Partner Top Engineer 2024を頂いた者です. 仕事はエンジニア系のコンサルとSRE, 趣味(と前職以前の仕事)で機械学習や生成AI*1をやっとります. この記事は当ブログの名物かつ人気シリーズである, 主に技術書を中心としたオススメ書籍(元々はPython本メイン)の紹介エントリーです. ※去年の記事はこちら. 本年のこのエントリーは, 2024年の推し本4冊 CloudおよびSREな4冊 いい感じな技術書2冊 この三本立て(+私の完全なる趣味チョイスで数冊)でご紹介できればと思います. というわけで, 本年のラインナップは以下の通りです. この記事の著者 2024年の推し技術書10冊 特に推したい4冊 クラウドストラテジー 世界一流エンジニアの思考法 仕事に役立つ新・必修科目「情報Ⅰ」 キャリアづくりの教科書 CloudおよびSREな4冊

                                                                          2024年に読んだほうがいいエンジニアな書籍10冊+α - CloudとSREそしてキャリア本 - Lean Baseball
                                                                        • 監視とは何か ~監視エンジニアのスキルと成長~

                                                                          July Tech Festa 2021 winter E2セッションの資料です ITシステム監視とは何か 監視エンジニアの未来 監視エンジニアのトレーニング 次世代MSPの役割

                                                                            監視とは何か ~監視エンジニアのスキルと成長~
                                                                          • 「システム運用アンチパターン」を一読したので、その要点(特に薦めたい感想5点) - Qiita

                                                                            システム運用アンチパターン ―エンジニアがDevOpsで解決する組織・自動化・コミュニケーション | Jeffery D. Smith, 田中 裕一 |本 | 通販 | Amazon エンジニアがDevOpsで解決する組織・自動化・コミュニケーション。早速お薦めしたく書いています。読書感想文です。 感想5点 良いぞ。周りに薦めたい 百聞一見。目次だけでも: https://www.oreilly.co.jp/books/9784873119847/#toc 特に自分にとって良かったのは以下 9章 せっかくのインシデントを無駄にする 10章 情報のため込み:ブレントだけが知っている だが、一番スゴイのは11章かもしれない 「文化を変えようと思うのであれば、文化がどのように共有されているかを理解すること」 コロナ以前は 議事録 会議 机横での雑談 飲み会 タバコなどなどあったが コロナ以降、リ

                                                                              「システム運用アンチパターン」を一読したので、その要点(特に薦めたい感想5点) - Qiita
                                                                            • 障害から学ぶクラウドの正しい歩き方について考える - そーだいなるらくがき帳

                                                                              AWSで大きな障害が発生したこの機会に、自分がクラウドと正しく付き合っていくために必要なことを考える。 piyolog.hatenadiary.jp ちなみに稼働率 99.99% くらいを目指していくために必要な事を考える。 必要な稼働率を見極める 今回は 99.99% くらいを目指すと言ったが、実際に自分たちにとってどのくらいの稼働率を目指すか?ということはとてもとても大切だ。 幸い、今回自分は影響がなかったが、本当に完璧か?と言われるとそうではない。 まず弊社の場合、マルチリージョンではないので東京リージョンが落ちたら落ちる。 これを許容できない場合に99.99%を目指せるか?というと正直厳しい。 しかしサイトの規模はそんなに大きくないのでデータサイズも現実的に転送出来る範囲で、コンポーネントも少なく、TerraformやAnsibleによって再構築しやすい状態は整っている。 そのため

                                                                                障害から学ぶクラウドの正しい歩き方について考える - そーだいなるらくがき帳
                                                                              • 「コード書きました、あとはよろしく」では優れたソフトウェアは生まれない コンテナのスペシャリストが語る、運用性を損なう8つの実装例

                                                                                今押さえておくべき知識をアップデートし、ノウハウを共有し、さらなるスキルアップを実現する場として開催されている、AWS で最も Developer に特化したカンファレンス「AWS Dev Day Online Japan」。ここでSr. Product Developer Advocate, Elastic Containersの原氏が登壇。続いて、運用性に優れたソフトウェアが重要な理由と、運用性を損なう8つの実装例について紹介します。前回はこちらから。 You build it, you run it 原トリ氏:(スライドの「You build it, you run it」を指して)この言葉、聞いたこと、見たことがある方がいるかもしれません。これは、2006年にACM(Association for Computing Machinery)という団体が、Amazon AWSのCTOで

                                                                                  「コード書きました、あとはよろしく」では優れたソフトウェアは生まれない コンテナのスペシャリストが語る、運用性を損なう8つの実装例
                                                                                • 生き残る運用管理者 ~運用自動化を成功させる人、失敗させる人~

                                                                                  「SRE」のエンタープライズ適用を考える ~ AIは、運用管理をどう進化させるのか ~ https://itmedia.smartseminar.jp/public/seminar/view/1180 での基調講演資料です。 詳細: https://www.opslab.jp/publish/20180608-itmedia-sre.html 40分という短い時間で言葉足りずなところもありますが、「運用自動化」を冷静に見なおす機会になれば幸いです。 (運用設計ラボ合同会社 波田野裕一)

                                                                                    生き残る運用管理者 ~運用自動化を成功させる人、失敗させる人~