nabe_jwのブックマーク - はてなブックマーク

SRE Lounge #5 にて Backlog における SRE の事例について講演しました - 無印吉澤

僕は去年の8月にヌーラボに入社して、そこから Backlog の SRE として働いています。 SRE としての経験は約1年なのですが、ちょうどサービスが成長し、会社もエンジニアを積極的に採用して拡大している時期だったこともあり、色々な経験ができました。そのなかで、SRE の難しさ、SRE の組織の問題にも直面してきました。このあたりの経緯を整理して話すだけでも SRE にとって面白い話になるのではないか、と思い、今回の SRE Lounge #5 では「Backlog における SRE の事例〜プロダクトの成長のために SRE はなにをすべきか〜」というタイトルで発表させていただきました。 sre-lounge.connpass.com 発表スライドはこちらです。発表のときは冒頭で説明したのですが、これがベストプラクティスと言うつもりは全然ありません。僕らもまだ悩んでいる最中の問題

nabe_jw 2018/10/01

リンク

ニュースパスを支える関連記事推薦と近似近傍探索 - Gunosyデータ分析ブログ

こんにちは。メディアロジック分析部の米田 (@mathetake) です。今日はGunosy社とKDDI社が共同で運営するニュースパスというニュースアプリケーションで使われている関連記事推薦のアルゴリズムについて書きたいと思います。特に、約半年前に私が導入しKPIの改善に成功した新しいアルゴリズムと、そこでコアとなる近似近傍探索(Approximate Nearest Neighbor search)の技術について述べます。関連記事推薦とはこの記事で紹介する関連記事推薦とは、「特定のニュースに関連したニュースを推薦すること」です。より具体的には、特定の記事をクリックした後に記事閲覧画面を下にスクロールすると登場する「おすすめ記事」の枠に対して、関連したニュースを検索して表示することを指します: このような枠が設置されている事は一般的なアプリケーションにおいてごく自然ですが、推薦シ

nabe_jw 2018/10/01

リンク

パターン認識と機械学習（PRML）の輪読資料を公開 | Deep Learning JP

C.M.ビショップ他著「パターン認識と機械学習」の輪読資料の一覧を当サイトで公開しました。詳細はこちらから

nabe_jw 2018/09/29

リンク

marketing cloud laboratory |

nabe_jw 2018/09/29

リンク

自動化を考える前に読んでおきたいプレゼン資料たち - てくなべ (tekunabe)

はじめに以前こんな記事を書きました。（ほぼリンク集ですが・・） tekunabe.hatena blog.jp 今回はこれのプレゼン資料版のような記事です。ここ半年くらいの資料を対象にしています。具体的なツールの使い方などのスキルとは別に、考え方についても備えていきたいと思っています。運用自動化、不都合な真実いろいろと考えるきっかけになった資料です。 "「やれるところから始める自動化」は弊害を生む" "使う人が自分で作るしか無い、という結論" 生き残る運用管理者～運用自動化を成功させる人、失敗させる人～ "成果だけ出したい人にはお手軽なため「焼畑農業的な運用自動化」をする人に注意が必要。" その運用自動化では行き詰まる〜「つながらない」「つたわらない」「つみあがらない」を防ぐために〜 (2018/07/17リンク追記) リクルート流SRE インフラ運用がサービスを変える世界新卒

nabe_jw 2018/09/29

リンク

自然言語処理の前処理・素性いろいろ - Debug me

ちゃお・・・† 舞い降り・・・† 先日、前処理大全という本を読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:本橋智光技術評論社Amazon 前処理余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ﾊﾝｶｸｶﾅ') # => 'ハンカクカナ' neologdn.normalize

nabe_jw 2018/09/29

リンク

Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと - にほんごのれんしゅう

Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったことわたしの経験した、最初のKaggleの一歩と、実際にKaggleに対するモチベーションがそれなりに加熱するまでにやったことと、息切れしない心の持ち方です。 KaggleがDataScienceに携わるものの価値の可視化の基軸の一つになっていますが、まだ取り掛かれない or 心が折れそう人のために、私に必要だったきっかけと、私が行ったモチベーションコントロールを含めて記します。まだまだkaggleは弱いですが、継続的に、日々の生活の中に組み入れるまでが大変でした。目次既存の機械学習関連の技術者にとってのKaggleの認識のあり方すでに機械学習アルゴリズムを知っているがやるべきか競技プログラミングは業務コーディングで役に立たないロジックが、Kaggleの業務のデータ分析との関係にも成り立つか挑

nabe_jw 2018/09/29

リンク

Rによるデータクリーニング実践――政府統計からのグラフ作成を例として｜Colorless Green Ideas

データクリーニングが繁雑な作業であることを示すために、政府の統計データから日本の男のみの高校と女のみの高校の数の推移をグラフ化する事例を紹介する。クリーニングの作業にはR言語を用い、複数のファイルを統合し、整然データに変え、グラフを作成する。はじめにデータクリーニングは、データ分析の際に非常に重要なプロセスの1つであるが、データ分析の教科書では必ずしも十分に扱われていない。そこで、現実のデータクリーニングがどのように行われるかについて、一事例を紹介したいと思う。具体的には、統計処理に適したプログラミング言語のRを用いて、粗悪なデータから簡単な折れ線グラフが作成できる程度のきれいなデータにするまでのデータクリーニングを実施していく。本記事の対象読者本記事は、既存のデータに対して自らの手でデータ分析を実施している人、または実施しようと考えている人を主な対象にしている。データ分析の際にど

nabe_jw 2018/09/29

リンク

OSSのライセンスを理解する（「使用」と「利用」の違い、知っていますか？） - Qiita

最近、私的にDockerで遊んでいるのですが、Dockerを使っていると様々なライセンスを有したオープンソースソフトウェア（OSS）と遭遇します。自分が知らない間に著作権に抵触してしまうことが怖かったので、OSSのライセンスについて以下の流れでまとめてみました。「ライセンス関連用語」を理解する「オープンソースの定義」を理解する「コピーレフト」を理解する「主要ライセンス」を理解する 1.「ライセンス関連用語」を理解する OSSを理解するにあたって、まずは主要なライセンス関連用語の定義を理解することが重要です。私の場合は、「使用」と「利用」の違いや「オープンソースソフトウェア」と「フリーウェア」の違いについて、恥ずかしながら明確に理解できていませんでした。。。【オープンソース・ソフトウェア（Open Source Software, OSS）】ソースコードが無償で公開されており、誰

nabe_jw 2018/09/29

リンク

S3に保存したログファイルをストリーム処理するサーバーレスアプリケーションの紹介 - クックパッド開発者ブログ

インフラストラクチャー部セキュリティグループの水谷(@m_mizutani)です。クックパッドでは現在セキュリティ監視の高度化に取り組んでおり、その一環としてセキュリティ関連のログ収集およびその分析に力を入れています。ログ収集の部分では可用性などの観点からAWSのオブジェクトストレージサービスであるS3に一部のサービスやサーバのログをまず保存し、後から保存されたファイルを読み込んで分析などに利用しています。分析のためにS3に保存したファイルを前処理する方法としてAWS Glueなどを用いたバッチ処理がありますが、到着したログをなるべくストリームデータのように扱いたい場合もあります。特にセキュリティ関連のログでは以下のようなユースケースで利用しています。アラートの検出: ログを検査してその中から危険度の高いと考えられるログを探し出し、アラートとして発報します。アラートの具体的な例としては

nabe_jw 2018/09/29

リンク

Precisely Spectrum – Precisely Support

nabe_jw 2018/09/29

リンク

DWHにおける、ディメンションの更新手法 - ジムには乗りたい

データウェアハウスは基本的にデータの蓄積をしていくものである。しかし、現実には蓄積したデータに対して更新が発生する場合が多い。スタースキーマのようなディメンショナルモデリングを採用した場合、ディメンションの更新手法について検討することが必要になる。調べた結果を備忘のため残しておく。 ※更新手法については下記の論文が最も参考になったので、主なインプットとしてる。 http://www.unisys.co.jp/tec_info/tr68/6815.pdf はじめにスタースキーマにおいては、基本的にファクトテーブルへの更新は避け、ディメンションの更新によって、属性の変化を保持・表現する。ディメンションの例としては下記のようなものの変化があげられる。・顧客の住所・商品のカテゴリ・会社組織キンボールの示した解決方法は３つある 1. レコードオーバーライト要は、そのまま次元テーブ

nabe_jw 2018/09/29

リンク

第4回：データウェアハウスアーキテクチャ(3)：データボルトモデリング：データウェアハウス／BI技術を学ぼう！：エンジニアライフ

今回は、第3のデータウェアハウスアーキテクチャ、「データボルトモデリング(Data vault modeling)」について説明します。前回と前々回で解説したインモンモデルやキンボールモデルほど有名ではありませんが、1つの考えとして重要なアーキテクチャなので紹介したいと思います。データ統合せずにそのまま格納するデータボルトモデルの特徴を一言で言えば、すべてのオペレーションシステムから来たデータをそのまま保管するモデリングです。そのままデータを保管するところがポイントです。そのまま保管する理由はもし後で仕様が変わったとしても、元データがあるのでそれをもとに再構築できるからです。また、最近の監査に対応することを考えると、データを追えるという点で非常に優れています。今までとりあえず、万が一のためにローデータをファイルで保管していた会社は多いと思いますが、いざとなったら使わないし、どういうデ

nabe_jw 2018/09/29

リンク

HyperLoglogでcount distinctを速くする | DACエンジニアブログ：アドテクゑびす界

こんにちは。俺やで。 HyperLoglogについて書きます。おもしろいです。名前が。 ■1. HyperLoglogとは？ count distinctを速くするアルゴリズム以前、Minhashについて書きました。（Treasure Dataさんのブログにも載せていただきました。ありがとうございます。） HivemallでMinhash！〜似てる記事を探し出そう。〜 Build a Simple Recommendation Engine with Hivemall and Minhash HyperLoglogもMinhash同様乱択アルゴリズムを応用したものです！ビッグデータのエンジニアとかデータアナリストであれば、count distinctする機会はめちゃめちゃあると思うのですが、「おせーよ。早く結果返せよ」と思うこともめちゃめちゃあるのでは。なぜ遅いかと言うと正直にすべ

nabe_jw 2018/09/28

リンク

LINEのMySQL運用について

日本語が正しく表示されていなかったため修正版をアップロードいたしました。 https://www.slideshare.net/linecorp/line mysql-115766814

nabe_jw 2018/09/28

リンク

コンテナ導入概要資料2018

最近勉強を始めたコンテナ技術に関する基礎的な知識をまとめました。 [訂正と注釈] p.27-30: 「Deployment」内の「Version: 1」 => 「Version: 2」 p.37: 「終了コードをから」 => 「終了コードから」 p.39: 「HTTPSが利用できない」=> AWS上では、SSL終端するLBがサポートされています。https://kubernetes.io/docs/concepts/services-networking/service/#ssl-support-on-aws p.40: 「ユーザがingress controllerをmaster上にセットアップする必要」 => master上にセットアップしなければならないという制約はありません。例えばGCEのingress controller(GLBC)はPodとして動作します。https://gi

nabe_jw 2018/09/09

リンク

開発現場に学ぶ、円滑なコードレビューに必要な8つの手法～手段から準備、実施時期まで徹底解説～｜ハイクラス転職・求人情報サイト AMBI（アンビ）

開発現場に学ぶ、円滑なコードレビューに必要な8つの手法～手段から準備、実施時期まで徹底解説～コードレビューによって解決される問題とは？そして、実際にチームでコードレビューを実施する上で気をつけるべきこととは？ソニックガーデンの取締役プログラマー西見公宏さんが、コードレビューのポイントを、実践に基づき解説します。 ITを活用して事業の課題を解決するサービス「納品のない受託開発」を提供する会社、ソニックガーデンの西見公宏（にしみ・まさひろ／@mah_lab）です。お客様の「バーチャルCTO」として、サービスの企画からシステムの開発・運用まで、日夜幅広く関わらせていただいております。皆さんは普段、ソースコードをどのくらい読んでいるでしょうか？普段からソフトウェア開発をしている人であれば、何か問題が起こったときの原因調査のために他の人が書いたコードを読んだり、はたまた自分の書いたコードを読

nabe_jw 2018/08/05

リンク

CPU能力を使い切る、仮想環境でOSが動く仕組みを図解

出典：日経BPムック「若手IT エンジニア最強の指南書」 p.53 「仮想化とコンテナー」を改題して編集（記事は執筆時の情報に基づいており、現在では異なる場合があります）仮想化とクラウドコンピューティングの普及により、物理マシンより仮想マシンを扱うことが多くなりました。そこで、仮想化環境上で動作するOSの特徴についても知っておく必要があります。マルチコアCPUやマルチCPU構成が当然になったため、CPUの能力を使い切るには、プログラムをマルチスレッド対応させるか、多数同時に動作させる必要がでてきました。しかし、マルチスレッド対応も、同時動作の保証も、プログラム作成の難易度を一気に高めます。また、マルチスレッド対応しても、サーバーの全コアで並列動作させるほどの性能要件がないこともあります。そこで、CPUを有効に使い切るための手段として、CPUを自由に仮想マシン（VM）に割り当てられる

nabe_jw 2018/08/05

リンク

なぜWii版マリオ64で長時間放置すると足場が浮かび上がるのか（非技術者向け解説）

ゲームのバグって面白いですよね。進行不可能バグはもちろん論外ですが、ちょっとした不思議なバグはなかなかに楽しめます。さて、今回話題になったのはWii版（バーチャルコンソール）のマリオ64で、「長時間たつと足場がどんどん浮き上がる」というものです。オリジナル版では起こらず、バーチャルコンソール版だけで起こるというのがミソです。この摩訶不思議なバグがいったいどうやって起きているのか、確かめていきましょう。話題のバグ：時間が経つと足場が浮かぶ Automatonなどで記事になった「『スーパーマリオ64』を研究するプレイヤーたちは、Aボタンを押さずステージクリアするために3日間待ち続ける」がゲーマーの間で話題になっています。このバグは、炎の海から顔を出したり沈んだりするだけの足場が、時間が経つにつれほんの少しずつ炎の海から浮遊するというものです。ゲームを起動したまま3日間放置すると、足場が

nabe_jw 2018/08/05

リンク

Linuxのloadavgが約7時間ごとに上昇する現象の原因 - Mackerel お知らせ #mackerelio

Mackerelチームのエンジニアのid:itchynyです。「mackerel-agentを入れるとloadavgが7時間ごとに上昇する」先日、このような問い合わせを複数のお客さまから受けました。私も実験してみたところ、確かに再現しました。EC2 t2.microにmackerel-agentを入れて簡単なログ監視とプロセス監視を設定し、数日放置しました。確かに、約7時間ごとにloadavgが上昇しています。この周期のcronの設定はしておらず、またmackerel-agent内部でも7時間ごとに行う処理はありません。しかし、プラグインを多く入れるほどloadavgのピーク値も上がります。本エントリーでは、この現象の原因について説明します。 loadavgが上昇する原因を調べるには、まずloadavg自体がどう計算されているかを知る必要があります。まずは、Linuxがloada

nabe_jw 2018/08/05

リンク

はてなブックマーク

タグ

nabe_jwのブックマーク (1,150)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス