タグ

developmentとdataに関するlepton9のブックマーク (64)

  • 事業のグロースを支えるDataOpsの現場 #DataOps #DevSumi #デブサミ / 20180727 - Speaker Deck

    Developers Summit 2018 Summer 【C-1】の発表資料です。 https://event.shoeisha.jp/devsumi/20180727/session/1764/ データの民主化、データ基盤の構築、分析チームの立ち上げ、機械学習プロジェクト。世を見渡せばキラキラした事例に溢れています。 しかし、いざ自分たちでやろうとしてもなかなか上手くいきません。理想に辿り着くためには、泥臭い過程が存在します。 セッションでは「登り方や道のりを知りたいんだ!」という方に向けて、DataOpsの観点から案件・システム・プロセス・文化・組織をエンジニアリングしてきた現場のリアルをご紹介します。 データ活用に携わる全てのエンジニアが今すぐ行動するためのヒントを持ち帰っていただければ幸いです。 以下のブログで補足・裏話を掲載しています。 - http://yuzutas0.

    事業のグロースを支えるDataOpsの現場 #DataOps #DevSumi #デブサミ / 20180727 - Speaker Deck
  • A/Bテストの評価をベイズ統計でやってみない? - tdualのブログ

    遊びでA/Bテストの評価をベイズ統計でやってみたら、思いのほか面白かったので記事に残します。 用語の定義 コンバージョン コンバージョン率 A/Bテスト コンバージョンの確率分布 なぜベイズ統計を使うのか 割合の問題点 尤度と最尤法 尤度 最尤法 ベイズ統計 ベイズの定理 共役事前分布 ベータ分布 事後分布の導出 事後分布のグラフ ベイジアンA/Bテストの実装 コード 使用例 番っぽい使い方 カイ二乗検定と比較 最後に 用語の定義 コンバージョン コンバージョンとは「Webサイト上で起きた最終的な成果」のことです。 具体的に何を意味するかはサイトの種類によっては様々です。 例えば、ECサイトでは商品の購入で、SNSでは会員登録などです。 コンバージョン率 コンバージョン率は「成果に繋がる最初の行動に対して実際に成果に繋がった割合」のことです。 ECサイトではある商品が購入された数をその商

    A/Bテストの評価をベイズ統計でやってみない? - tdualのブログ
  • データサイエンスプロジェクトのディレクトリ構成どうするか問題

    あるいは、論文 "Best Practices for Scientific Computing" および "Good Enough Practices in Scientific Computing" について。 TL;DR 標題の件について、未だに答えは見えていないのだけど、自分の現状と他の人の例を文字で残しておく。 こういう話で「あーその手があったかー!」と知ったときの興奮はすごいので、みなさんもっとオープンにいきましょう。 大切なのは、ソフトウェア開発と同じ要領でデータサイエンスのプロジェクトを捉えて、分析と言う名の“開発”を行うつもりでディレクトリを掘ること。 必要なものリスト ナウいデータサイエンス/機械学習プロジェクトの中には(経験上、ぱっと思い浮かぶだけでも)次のようなファイル群があって、僕たちはそれらを良い感じに管理したい。 ソースコード 役割がいろいろある: 前処理(こ

    データサイエンスプロジェクトのディレクトリ構成どうするか問題
  • クックパッドのデータ活用基盤 - クックパッド開発者ブログ

    インフラ部 & 技術部の青木峰郎です。 クックパッドでは全社的にAmazon Redshiftを中心としたデータ活用基盤を構築しています。 今日はその全体像についてお話ししたいと思います。 データ活用基盤の全体像 まず、以下にクックパッドのデータ活用基盤の全体像を示します。 大きく分けると入力が2系統、内部処理が1系統、出力が3系統あります。 入力はMySQLからのインポートとログのロードがあり、どちらも独自に構築したシステムで行われています。 DB内部のデータ処理はSQLバッチのみです。 そして出力は管理画面やBIツールからのアクセスとバッチ処理によるエクスポートに大別できます。 以下1つずつ説明していきましょう。 入力その1: MySQLインポートシステム MySQLからRedshiftへのマスターテーブル取り込みにも独自のインポートシステムを使っています。 このインポート処理には、つ

    クックパッドのデータ活用基盤 - クックパッド開発者ブログ
  • NDepend: LINQ for お手軽コード解析

    最初は小さいコードでも、日々進捗を重ねることで大きなものとなる。そしてある日、積み上がった成果の大きさに気付き、達成感に思わず笑顔になってしまうものですね。 成果が積み重なるのは喜ばしいことですが、同時に複雑さも折り重なり、問題も山積、問題に気付けないことにも同時に気付く、そういう未来も同じくらい存在します。長期的に育ってゆくコードベースの健康を維持したり、問題の芽を摘むための方策のひとつとして、静的解析が挙げられます。 .NET 環境向けにも様々なツールが存在するわけですが、今回、その中のひとつである NDepend のライセンスを開発元より頂戴しまして、実際に使ってみる機会を得ました。(ありがとうございます!) 日頃この手の解析ツールをしっかりと使ってきた方ではないのですが、せっかくの機会ですし、自分なりに遊んでみて、長短織り交ぜてレビューしてみようと思います。 NDepend 事始め

    NDepend: LINQ for お手軽コード解析
  • アジャイル・DevOps 実践企業サーベイの集計結果と考察 - メソッド屋のブログ

    先日、113名もの皆さまの協力を得て、「アジャイル・DevOps 実践企業サーベイ(2016)」を実施させていただきました。その集計結果を公開したいと思います。 サーベイにバイアスが入らないように、事前に公開をしていなかったのですが、サーベイの目的は、日に、DevOps を導入するにあたり、その前提条件である、アジャイル開発の導入がどの程度質的に進んでいるか?ということを調査したかったというのが発端になっています。著名なIPAのサーベイ(2013)では、51%の企業がアジャイル導入済みになっていましたが、肌感覚的には当かな?というのがあったので、調査してみたくなりました。 今回はサーベイの結果をフル公開いたします。私もサーベイのプロではありませんし、コメントはあくまで私の見方ですので、みなさんご自由のこのサーベイの結果をご利用ください。皆様の分析を皆様のブログに書いていただいてもも

    アジャイル・DevOps 実践企業サーベイの集計結果と考察 - メソッド屋のブログ
  • 第2回 Elasticsearch 入門 データスキーマ設計のいろは | DevelopersIO

    第2回目の Elasticsearch 入門は「データスキーマ設計のいろは」です。 設計と言うほどでもないのですが、例えば RDB で検索にフォーカスした設計や、他の検索エンジンも経験していると、これまでの制限や習慣で Elasticsearch の特徴を生かせない設計をしてしまう事があるので、このテーマにしてみました。 それではインデックスするためのデータ構造を Elasticsearch でどのように設計するのか解説したいと思います。 設計フローまで変えてしまう画期的なドキュメント指向型検索エンジン Elastic 社のホームページを見てみると Elasticsearch の特徴の1つとして「Document-Oriented」と言う記載があります。直訳すると「ドキュメント指向」です。 簡単に説明すると 現実世界の複雑なデータをJSONドキュメントにしてインデックスするだけで、デフォル

    第2回 Elasticsearch 入門 データスキーマ設計のいろは | DevelopersIO
  • 巨大なバッチを分割して構成する 〜SQLバッチフレームワークBricolage〜 - クックパッド開発者ブログ

    トレンド調査ラボの青木峰郎(id:mineroaoki)です。 好きなRubyのメソッドは10年前からString#slice(re, nth)ですが、 最近はRubyよりCoffeeScriptとSQLのほうが書く量が多くて悩んでいます。 今日はわたしが開発している「たべみる」の背後で働いている 巨大バッチの構成について話したいと思います。 たべみるのバッチは約3000行のSQLで構成されており、 処理時間が1日で4時間程度かかる、そこそこの規模のプログラムです。 このバッチ処理プログラムをBricolage(ブリコラージュ)というフレームワークで構造化する手法について説明します。 「たべみる」とは まず最初に、「たべみる」がどういうものなのかごく簡単にお話ししておきましょう。 「たべみる」は企業のみに提供しているB2Bの分析サービスで、 クックパッドレシピ検索の分析をすることができま

    巨大なバッチを分割して構成する 〜SQLバッチフレームワークBricolage〜 - クックパッド開発者ブログ
  • grepでログ解析をするなんてひどい話だ | POSTD

    今でも、 systemdのjournal におけるバイナリのストレージフォーマットに関して、不満を漏らす人が多くいることに私は驚きを隠せません。私は長年、システム管理者として働いてきており、1年以上も syslog-ng の オープンソースエディションのメンテナ として活動してきました。だからこそ、テキストではないストレージフォーマットに対して、なぜ多くの人が批判的なのか、私は理解に苦しんでいます。更に、反論を唱える人までいることが信じられません。もしかしたら、私は別世界の人間なのかもしれません。ですが、より良い選択肢があるのに、テキストのストレージを使う理由はほとんどありません。ロギングをする必要性、そしてなぜ、テキストのログストレージに対してそこまで用心深いのかについて、私は何度も尋ねられました。ここに、私が導き出した答えを紹介したいと思います。 これは、journalについて弁明する

    grepでログ解析をするなんてひどい話だ | POSTD
  • Stack Overflow Developer Survey 2015

    Overview Every year we run a survey. This year, more developers answered more questions than ever before. 26,086 people from 157 countries participated in our 45-question survey. 6,800 identified as full-stack developers, 1,900 as mobile developers, 1,200 as front-end developers, 2 as farmers, and 12,000 as something else. We conducted this survey to help us better understand our community and to

    Stack Overflow Developer Survey 2015
  • Elasticsearch を使った位置情報検索 - クックパッド開発者ブログ

    ホリデー事業室の内藤です。 ホリデー事業室は昨年の4月に発足した部署で、Holiday(https://haveagood.holiday)という新規サービスの開発を行っています。 Holiday とは、クックパッドが長年取り組んでいる「毎日の料理を楽しみにする」分野からは少しだけ離れ、「いつもの休日を楽しくすることで人生を豊かにする」ことを目指したサービスです。 例えばこちらのおでかけプランのように、「〇〇に行くならここも行ったほうがいいよ」や「〇〇を散策するならこのコースだよね」など、おでかけのレシピを投稿したり探すことができるようになっています。 今回は、全文検索エンジン Elasticsearch を使って、全文検索と位置情報を絡めた検索についてお話したいと思います。 稿で説明する内容は、実際に Holiday の中でも応用を加えた形で使われています。 Holiday では、複数

    Elasticsearch を使った位置情報検索 - クックパッド開発者ブログ
  • 開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD

    システムの構築、新しい技術の習得、PythonやDevOpsなどに情熱を注ぐソフトウェア開発者です。現在はチューリッヒを拠点とするビッグデータのスタートアップで働いており、データ分析およびデータ管理ソリューションのためのPython技術を磨いています。 1 はじめに Python は開発時間を短縮できるという点で一般的に評価の高い言語です。しかし、Pythonを使って効率よくデータ分析をするには、思わぬ落とし穴があります。動的かつオープンソースのシステムであるという特徴は、初めは開発を容易にしてくれますが、大規模システムの破綻の原因になり得ます。ライブラリが複雑で実行時間が遅く、データの完全性を考慮した設計になっていないので、開発時間の短縮どころか、すぐに時間を使い果たしてしまう可能性があるのです。 この記事ではPythonやビッグデータで作業をする時に、最も時間を無駄にしがちな事柄につ

    開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD
  • Prometheus - Monitoring system & time series database

    «Even though Borgmon remains internal to Google, the idea of treating time-series data as a data source for generating alerts is now accessible to everyone through those open source tools like Prometheus [...]» — Site Reliability Engineering: How Google Runs Production Systems (O'Reilly Media) Open Source Prometheus is 100% open source and community-driven. All components are available under the A

    Prometheus - Monitoring system & time series database
  • オープンデータとオープンソースGisを用いたweb上でのインタラクティブ可視化手法について

    Ryousuke WayamaSoftware Developer at Northern system service Co.,Ltd.

    オープンデータとオープンソースGisを用いたweb上でのインタラクティブ可視化手法について
  • TDDの経験と現状のアンケート

    「TDD(テスト駆動開発)ってどのくらい使われてるんですか?」と聞かれることがあります。それはですね、俺だって知りたいわー!というわけで、「TDDの経験と現状について」というアンケートを作りました。 10/23の段階で83件の回答がありました。ありがとうございます。TDD人気ありますね。中間報告として、これまでの回答を公開したいと思います。始めた時期と現在の状況のグラフです。 回答全体のサマリはこちらで見られます(回答したときに見られるのと同じです)。なお、こちらは随時更新されるので、エントリの内容と一致しないかもしれません。 https://docs.google.com/forms/d/1pb29VBqO-kd10ks_x9oqvkMUy5rDW4nMoDnBPVM85yc/viewanalytics ※アンケートはまだまだ受付中です。こちらからどうぞ→ http://goo.gl/

    TDDの経験と現状のアンケート
  • サービス改善はログデータ分析から

    2014/09/09に行われた『サーバ/インフラエンジニア養成読 ログ収集〜可視化編』 出版記念!執筆者が語る大講演会! での発表資料です。 http://eventdots.jp/event/137658Read less

    サービス改善はログデータ分析から
  • fluentd + MongoDB + Elasticsearch + Kibanaでログを可視化する | 踊る犬.net

    Programming, Technology fluentd + MongoDB + Elasticsearch + Kibanaでログを可視化する SaaSは利用料が高いのでOSSを使う 要件 独自フォーマットのログを扱いたい アプリケーション特化の情報も一緒に格納したい グラフ設定を簡単に柔軟に変えられるようにしたい システム構成 Chefを使ったセットアップ手順 fluentdの設定 ElasticsearchとKibanaのインストール Elasticsearchの設定 Kibanaの設定 参考リンク SaaSは利用料が高いのでOSSを使う サーバのログを可視化するSaaSは沢山あります。 DataDogとかKeen IOとかlibrato、Logglyなどなど。 とても便利そうですね。でも価格が高い! なんでもかんでもSaaSに頼ってたら毎月数十万とかになりそうです。貧

    fluentd + MongoDB + Elasticsearch + Kibanaでログを可視化する | 踊る犬.net
  • Googleがプログラマのビルドエラーを研究

    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。このでは、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

    Googleがプログラマのビルドエラーを研究
  • Sensu on AWS - Speaker Deck

    Component •  Server –  Checkを実⾏行行するにあたっての準備やCheckの結果の処理理やイベントのハンドリ ングを⾏行行う •  Client –  実際にCheckが⾏行行われる監視対象上にインストールする。Clientはチェック実⾏行行 のリクエストを取得したり、Checkを実⾏行行したり、RabbitMQにCheckの結果を 送信。Client単体で定期的にチェックを実施するように制御することも可能 •  API –  Sensuのデータに対するRESTベースのAPIを提供。このAPIをコールすると登 録済みのClientの情報や現在のイベントなどを取得可能 •  Dashboard –  SensuのWebベースのダッシュボード。ただし機能は少ない(しょぼい)

    Sensu on AWS - Speaker Deck
  • トレジャーデータ事例集 1(a).「オンラインゲームソリューション」 - トレジャーデータ(Treasure Data)ブログ

    *トレジャーデータはデータ収集、保管、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 シリーズは,弊社事例セミナーで発表した資料をベースに3つの分野における事例を通してトレジャーデータサービスを深く理解してもらえる事を目的としています。 事例で学ぶトレジャーデータ 20140612 from Takahiro Inoue シリーズは,紹介する3つの分野における事例を通してトレジャーデータサービスを深く理解してもらえる事を目的としています。 (事例1)「オンラインゲームソリューション (a) (b)」 (事例2)「モダンWebアナリティクス」 (事例3)「ECログ分析」 オンラインゲームソリューション トレジャーデータ | 米国トレジャーデータ社/トレジャーデータ株式会社 オンラインゲーム向けデータマネージメントサービスをソリューションとして提供開始 今回は「オンライ

    トレジャーデータ事例集 1(a).「オンラインゲームソリューション」 - トレジャーデータ(Treasure Data)ブログ