hirose31のブックマーク - はてなブックマーク

Prometheusによる数百台規模のモニタリングで直面した問題について | GREE Engineering

インフラの反田 (@mtanda) です。 GREEでは、多くのサービスをAWS環境で運用しており、それらサービスのモニタリングシステムとしてPrometheusを利用しています。 Prometheusを導入してから約2年がたち、1台のPrometheusで数百台規模のインスタンスをモニタリングするなかで、さまざまな問題に直面しました。それら問題の原因を分析し、設定や利用の仕方を改善することで、ある程度安定して運用できるようになりました。これらの知見が少しでもお役に立てばと思い、ここで共有いたします。なお、対象とするPrometheusのバージョンは1.xです。Prometheus 2.0では、これら問題のほぼ全てに対して改善されています。そのため、2.0でどういった点が改善されているかを知るためにも有用だと思います。 Prometheusのストレージ実装の基礎知識 Promethe

hirose31 2018/08/14

prometheus

リンク

よくわかるLinux帯域制限 | GREE Engineering

矢口です。みなさんはLinuxのtcという機能をご存知でしょうか。送信するパケットの帯域制御を行うことができる大変強力な機能で、グリーでもいくつかの用途で使用されています。具体的な事例の一つはRedisです。Redisではreplicationを新規に開始する際やfailoverが発生しmasterが切り替わった際(特に2.6系)にストアされている全データが転送されます。しかし帯域制限をかける機能がないため、ネットワーク帯域を圧迫してしまう危険性があります。また通常のクライアントとの通信でも大量のクエリにより予想以上の帯域を使用してしまう可能性があります。このような場合にtcを用いることでRedisの使用する帯域をコントロールできます。このように有用なtcですが残念なことに日本語/英語ともにわかりやすい解説や詳細な情報は多くありません。私も社内において使われていたtcの設定に問題が

hirose31 2014/10/09

tc

リンク

グリーのインフラに Chef を導入した話 | GREE Engineering

類似のソフトウェアとして、Puppet や Ansible といったものもあります。こういったインフラ自動化まわりのソフトウェアについてはペパボの宮下さんのインフラ系技術の流れが参考になります。 Chef in グリーさて、グリーでのChefまわりの構成をご紹介します。下図が全体の構成です。開発環境開発は各個人のマシン上で仮想マシンを立ち上げて行なっています。クックブックの開発では、クックブックを開発する人が serverspec でテストを書くようにしていて、構築後のサーバが期待通り動くことをテストしています。一つのクックブックでも設定値などの条件によって動作が変わってくるため、test-kitchen を用いて複数の条件（ランリストやノードのアトリビュート（以下、「アトリビュート」）などの組み合わせ）でテストを行っています。また、一部仮想マシンを使う必要がないテスト（att

hirose31 2014/07/25

chef

リンク

天下一InfluxDB勉強会開催してきました | GREE Engineering

こんにちは。ちょびえです。先日6/27(金)にDeNAさん会場にて天下一Influx DB勉強会を開催してきました。当日はあいにくの悪天候ながら参加いただき有難うございました。また、会場を快く提供していただきましたDeNAさんに感謝申し上げます。天下一Influx DB勉強会イベントページきっかけはanatooのtweetにより始まりました天下一influx db勉強会の開催が待たれる — anatoo (@anatoo) May 29, 2014 もともとanatooとはPHPつながりで闇PHP勉強会など企画して頂いて参加させていただいていたのですが、今回は二人共Influx DBに興味があるよね！ってことでInflux DBの勉強会を企画・開催してきました。本記事では天下一Influx DB勉強会のレポートまとめ、という事で資料＋動画を簡単にまとめておこうかと思います。@sonotsさん

hirose31 2014/06/30

InfluxDB

リンク

"PHP Apocalypse"を開催しました！ | GREE Engineering

どうも。GREE開発本部の吉川(@tsuyoshikawa)です。この記事はGREEのエンジニアブログではありますが、PHP AdventCalender2011の12/21の回ともなっています。去る12/17(土)に、弊社会場、主催私で"PHP Apocalypse"なるイベントを開催しましたので、それのふりかえりとご紹介をさせて頂こうかと思います。イベントの概要 - ATND "PHP Apocalypse"とはこのイベントはいわゆる技術勉強会ではありますが、直接的には過去にはてなブックマークで300くらいのユーザを集めた“PHP のよいところとよくないところ - id:k-z-h”というエントリーへのリアクションがきっかけになって起こっています。エントリーの内容はPHPの批判が含まれるものとなっていますが、その批判自体にどうこうというより、エントリーを書いたid:k-z-h

hirose31 2011/12/22

Gakky作りたい

リンク

DNS サーバ PrimDNS オープンソース公開のお知らせ | GREE Engineering

こんにちは。インフラチームの ebisawa です。独自に実装した DNS コンテンツサーバ PrimDNS をオープンソースとして公開させて頂きましたのでお知らせいたします。ご興味がありましたらぜひお試しいただければと思います。グリー内では特に何もしなくてもなぜか各サーバの名前を DNS 解決できたり、その他いろいろなサービスが提供されています。今回公開させていただいた PrimDNS は、もともとグリーのインフラ内で利用されているものをベースに、一般の利用に向けてアレンジしたものです。公開先はこちら → http://labs.gree.jp/Top/OpenSource/PrimDNS.html なぜ DNS DNS には、かつてより超定番の実装が存在しますが、何らかの理由でもっと他の選択肢もあるといいのに、と思われたことはないでしょうか。特に DNS のようなインターネット

hirose31 2011/04/21

dns

リンク

GREE Engineering

404 お探しのページは見つかりません GREE Engineering トップへ戻る

hirose31 2011/01/21

skype

リンク

大規模インフラの監視システムその2 | GREE Engineering

こんにちは。グリーのmdoi(@m_doi)です。今回は、グリーの監視システムについて説明したいと思います。以前、こちらの記事にて、リソース監視システムの説明をさせて頂きましたが、死活監視やログ監視については語られなかったので、気になっていた方も多いと思います。ということで、今回は、グリーのインフラにおける死活監視やログ監視、アラート通知システムを紹介したいと思います。何を使っているの？グリーでは、死活監視にNagiosを使用していました。監視システムの中では、かなり有名なソフトウェアですから、監視システムの構築に使用したことがある方も多いのではないでしょうか。プラグインも豊富に存在するので、様々な監視を行うことができます。死活監視は、このNagiosの機能をそのまま利用し、ログ監視は、Nagiosと独自に作成したエージェント及びログフィルタを連携させて行っていました。全体のシステ

hirose31 2011/01/20

あわっくす？コード公開されないかしらー

リンク

SWFバイナリ編集のススメ第五回 (PNG) | GREE Engineering

こんにちは。メディア開発のよやです。今回は、PNG 画像入れ替えについてお話します。 PNG の情報を格納できるタグ DefineBitsLossless, DefineBitsLossless2 が利用出来ます。(*1) DefineBitsLossless に透明度情報を加えたのが、DefineBitsLossless2 です。 PNG の特徴 (基礎知識) 可逆圧縮のフォーマットです。(JPEGと違って画像の細部が潰れません) パレット形式とトゥルーカラー形式(24bit(*2)フルカラー)の両方に対応します。色毎、ピクセル毎に透明度(半透明も可)が指定できます。 (GIFは半透明を扱えません) パレット形式前回の GIF 編の説明と似ていますが、(GIFと異なり)半透明も扱う為、格納方式が異なります。以下のは輪郭の外が透明で、黄色を少しだけ半透明した例です。 PLTE ch

hirose31 2010/12/21

swf

リンク

グリーの大規模分散ストレージ戦略(nanofs) Vol.2 | GREE Engineering

はじめにグリー株式会社でエンジニアをしておりますkgwsと申します。今回は、前回に引き続き分散ストレージ(nanofs)のHTTPメソッド毎の処理を紹介させていただければと思います。 nanofsは5つのHTTPメソッド(GET、PUT、DELETE、HEAD、MKCOL)をサポートしております。今回は主なGET、PUT、DELETEの3つについてご説明させていただきます。まずは構成のおさらい nanofsは、主に3つのプロセスで構成されております。 nanofsd(dispatcher) アプリケーションサーバからリクエストを受け取り実際に保存されているnanofsnに振り分ける 5つのHTTPメソッドをサポートしている(GET、PUT、DELETE、HEAD、MKCOL) データベース（KVS）に保存したデータの情報を送る queueに処理の指示を送る nanofsw(worke

hirose31 2010/10/12

正常系はもちろんなんだけど、どっちかというか異常系(フェイルオーバーとかリカバリーとか)の対応が知りたい #nanofs

gree
storage

リンク

大規模インフラの監視システム | GREE Engineers' Blog

こんにちは。インフラチームの ebisawa です。今回はグリーのインフラにおける各種機器の監視がどのように行われているのかご紹介させていただきたいと思います。一般にサーバの監視というと、システムダウンを検出するための死活監視を意味する場合と、ネットワークトラフィック等のモニタリングのことを意味する場合とがあります。今回の監視は特に後者についてのお話です。大規模なインフラの監視には、やはり特有の課題があります。どんなツールを使っているのかグリーではサーバの各種リソース使用状況をモニタリングしてグラフ化するためのツールとして、Cacti を利用しています。Cacti は、大変有名なツールなので皆様ご存知かと思いますが、バックエンドの RRDtool で作成したグラフを閲覧するための使いやすいユーザーインターフェイスを備えています。 http://www.cacti.net/ ツールの使

hirose31 2010/10/08

ノードが多い場合は、Cactiみたいな中央集権型ポーリングじゃなくて、分散エージェント型の方が適してるんじゃないですかねー

リンク

リアルタイム・ランキングを考える | GREE Engineering

はじめにこんにちは。プラットフォーム開発部のsp1rytusと申します。先日、私もついに30歳のおっさんになってしまいました。加齢臭が出ないようにがんばります！ランキングって？ランキングは誰でもわかる、何らかの得点をソートして順位位置を決定する凄く簡単でシンプルなものです。しかし、ゲームを扱うコンテンツ・サービスにおいては、得点を通算/日別に順位付けされたものが直ぐに目に入るように、他人と自分を比較する非常に重要な役割を果たしています。そこで、この記事では次の３つ要件を満たすようなランキング・システムの難しさと、それを解決するための一例を簡単に説明させて頂きます。順位付けはリアルタイムに行い、集計時間を必要としない。 100万件以上の得点データが扱える。すべてのデータが正しい順位付けで取得できる(線形補完などで順位を概算しない）。リアルタイムによる正確な順位付けは、データ件数

hirose31 2010/07/22

ranking

リンク

グリーの大規模分散ストレージ戦略(nanofs) | GREE Engineering

はじめにはじめまして、グリー株式会社でエンジニアをしておりますkgwsと申します。今回は、グリー内で写真データの保存を行っている分散ストレージ(nanofs)を紹介させていただければと思います。背景弊社で運営させていただいている "GREE" ではユーザの写真や動画データを保存することができます。1億ユーザを目指すグリーは、ユーザの増加とともに写真や動画データは上限なしに増加していきます。またユーザの皆様の大切なデータを失うことは許されませんし、サービスを止めることも許されません。そんな状況の中、様々な技術や仕組みを使いサービスを運営してまいりました。グリーのストレージの歴史は大きく分けて3世代がありました。第一世代第一世代ではアプリケーションサーバからNFSサーバをマウントし画像データを保存しておりました。簡単に導入できることと高価なサーバを使用すれば信頼性や安定性も保たれる

hirose31 2010/07/12

【グリー内で写真データの保存を行っている分散ストレージ(nanofs)】

gree
nanofs

リンク

AMQPによるメッセージング | GREE Engineering

こんにちは。GREEのプラットフォーム開発部でインフラ系の仕事をしているmdoi(@m_doi)と申します。よろしくお願いします。今回は、AMQPについて簡単に紹介したいと思います。はじめに GREEで稼働中のサーバは、日々サーバの異常ログ、自己監視結果、メール等々、大量のメッセージをやり取りしています。しかしながら、共通のメッセージングインフラが存在しないため、それぞれが独立に色々なメッセージ送信を行っています。サーバ台数の増大に伴って、メッセージ配送の負荷が無視できないレベルになって来ると、それらのメッセージングシステムについて、個別に負荷対策を施すなど運用上様々な問題が課題が出てきます。また、メッセージの種類によっては、その配送の仕組がスケーラビリティに欠けるものとが存在し、規模の増大に対応できなくなる恐れもあります。そのため、こういうった用途に使えるスケーラブルなメッセージング