[B! development][data] [2ページ] lepton9のブックマーク

事業のグロースを支えるDataOpsの現場 #DataOps #DevSumi #デブサミ / 20180727 - Speaker Deck

Developers Summit 2018 Summer 【C-1】の発表資料です。 https://event.shoeisha.jp/devsumi/20180727/session/1764/ データの民主化、データ基盤の構築、分析チームの立ち上げ、機械学習プロジェクト。世を見渡せばキラキラした事例に溢れています。しかし、いざ自分たちでやろうとしてもなかなか上手くいきません。理想に辿り着くためには、泥臭い過程が存在します。本セッションでは「登り方や道のりを知りたいんだ！」という方に向けて、DataOpsの観点から案件・システム・プロセス・文化・組織をエンジニアリングしてきた現場のリアルをご紹介します。データ活用に携わる全てのエンジニアが今すぐ行動するためのヒントを持ち帰っていただければ幸いです。以下のブログで補足・裏話を掲載しています。 - http://yuzutas0.

lepton9 2018/07/31

リンク

A/Bテストの評価をベイズ統計でやってみない？ - tdualのブログ

遊びでA/Bテストの評価をベイズ統計でやってみたら、思いのほか面白かったので記事に残します。用語の定義コンバージョンコンバージョン率 A/Bテストコンバージョンの確率分布なぜベイズ統計を使うのか割合の問題点尤度と最尤法尤度最尤法ベイズ統計ベイズの定理共役事前分布ベータ分布事後分布の導出事後分布のグラフベイジアンA/Bテストの実装コード使用例本番っぽい使い方カイ二乗検定と比較最後に用語の定義コンバージョンコンバージョンとは「Webサイト上で起きた最終的な成果」のことです。具体的に何を意味するかはサイトの種類によっては様々です。例えば、ECサイトでは商品の購入で、SNSでは会員登録などです。コンバージョン率コンバージョン率は「成果に繋がる最初の行動に対して実際に成果に繋がった割合」のことです。 ECサイトではある商品が購入された数をその商

lepton9 2018/04/22

リンク

データサイエンスプロジェクトのディレクトリ構成どうするか問題

あるいは、論文 "Best Practices for Scientific Computing" および "Good Enough Practices in Scientific Computing" について。 TL;DR 標題の件について、未だに答えは見えていないのだけど、自分の現状と他の人の例を文字で残しておく。こういう話で「あーその手があったかー！」と知ったときの興奮はすごいので、みなさんもっとオープンにいきましょう。大切なのは、ソフトウェア開発と同じ要領でデータサイエンスのプロジェクトを捉えて、分析と言う名の“開発”を行うつもりでディレクトリを掘ること。必要なものリストナウいデータサイエンス/機械学習プロジェクトの中には（経験上、ぱっと思い浮かぶだけでも）次のようなファイル群があって、僕たちはそれらを良い感じに管理したい。ソースコード役割がいろいろある：前処理（こ

lepton9 2017/12/18

リンク

クックパッドのデータ活用基盤 - クックパッド開発者ブログ

インフラ部 & 技術部の青木峰郎です。クックパッドでは全社的にAmazon Redshiftを中心としたデータ活用基盤を構築しています。今日はその全体像についてお話ししたいと思います。データ活用基盤の全体像まず、以下にクックパッドのデータ活用基盤の全体像を示します。大きく分けると入力が2系統、内部処理が1系統、出力が3系統あります。入力はMySQLからのインポートとログのロードがあり、どちらも独自に構築したシステムで行われています。 DB内部のデータ処理はSQLバッチのみです。そして出力は管理画面やBIツールからのアクセスとバッチ処理によるエクスポートに大別できます。以下1つずつ説明していきましょう。入力その1: MySQLインポートシステム MySQLからRedshiftへのマスターテーブル取り込みにも独自のインポートシステムを使っています。このインポート処理には、つ

lepton9 2017/10/06

リンク

NDepend: LINQ for お手軽コード解析

最初は小さいコードでも、日々進捗を重ねることで大きなものとなる。そしてある日、積み上がった成果の大きさに気付き、達成感に思わず笑顔になってしまうものですね。成果が積み重なるのは喜ばしいことですが、同時に複雑さも折り重なり、問題も山積、問題に気付けないことにも同時に気付く、そういう未来も同じくらい存在します。長期的に育ってゆくコードベースの健康を維持したり、問題の芽を摘むための方策のひとつとして、静的解析が挙げられます。 .NET 環境向けにも様々なツールが存在するわけですが、今回、その中のひとつである NDepend のライセンスを開発元より頂戴しまして、実際に使ってみる機会を得ました。(ありがとうございます！) 日頃この手の解析ツールをしっかりと使ってきた方ではないのですが、せっかくの機会ですし、自分なりに遊んでみて、長短織り交ぜてレビューしてみようと思います。 NDepend 事始め

lepton9 2016/08/30

リンク

アジャイル・DevOps 実践企業サーベイの集計結果と考察 - メソッド屋のブログ

先日、113名もの皆さまの協力を得て、「アジャイル・DevOps 実践企業サーベイ(2016)」を実施させていただきました。その集計結果を公開したいと思います。サーベイにバイアスが入らないように、事前に公開をしていなかったのですが、本サーベイの目的は、日本に、DevOps を導入するにあたり、その前提条件である、アジャイル開発の導入がどの程度本質的に進んでいるか？ということを調査したかったというのが発端になっています。著名なIPAのサーベイ(2013)では、５１％の企業がアジャイル導入済みになっていましたが、肌感覚的には本当かな？というのがあったので、調査してみたくなりました。今回はサーベイの結果をフル公開いたします。私もサーベイのプロではありませんし、コメントはあくまで私の見方ですので、みなさんご自由のこのサーベイの結果をご利用ください。皆様の分析を皆様のブログに書いていただいてもも

lepton9 2016/05/30

リンク

第２回 Elasticsearch 入門データスキーマ設計のいろは | DevelopersIO

第2回目の Elasticsearch 入門は「データスキーマ設計のいろは」です。設計と言うほどでもないのですが、例えば RDB で検索にフォーカスした設計や、他の検索エンジンも経験していると、これまでの制限や習慣で Elasticsearch の特徴を生かせない設計をしてしまう事があるので、このテーマにしてみました。それではインデックスするためのデータ構造を Elasticsearch でどのように設計するのか解説したいと思います。設計フローまで変えてしまう画期的なドキュメント指向型検索エンジン Elastic 社のホームページを見てみると Elasticsearch の特徴の１つとして「Document-Oriented」と言う記載があります。直訳すると「ドキュメント指向」です。簡単に説明すると現実世界の複雑なデータをJSONドキュメントにしてインデックスするだけで、デフォル

lepton9 2016/03/18

リンク

巨大なバッチを分割して構成する〜SQLバッチフレームワークBricolage〜 - クックパッド開発者ブログ

トレンド調査ラボの青木峰郎（id:mineroaoki）です。好きなRubyのメソッドは10年前からString#slice(re, nth)ですが、最近はRubyよりCoffeeScriptとSQLのほうが書く量が多くて悩んでいます。今日はわたしが開発している「たべみる」の背後で働いている巨大バッチの構成について話したいと思います。たべみるのバッチは約3000行のSQLで構成されており、処理時間が1日で4時間程度かかる、そこそこの規模のプログラムです。このバッチ処理プログラムをBricolage（ブリコラージュ）というフレームワークで構造化する手法について説明します。「たべみる」とはまず最初に、「たべみる」がどういうものなのかごく簡単にお話ししておきましょう。「たべみる」は企業のみに提供しているB2Bの分析サービスで、クックパッドのレシピ検索の分析をすることができま

lepton9 2015/06/27

リンク

grepでログ解析をするなんてひどい話だ | POSTD

今でも、 systemdのjournal におけるバイナリのストレージフォーマットに関して、不満を漏らす人が多くいることに私は驚きを隠せません。私は長年、システム管理者として働いてきており、1年以上も syslog-ng のオープンソースエディションのメンテナとして活動してきました。だからこそ、テキストではないストレージフォーマットに対して、なぜ多くの人が批判的なのか、私は理解に苦しんでいます。更に、反論を唱える人までいることが信じられません。もしかしたら、私は別世界の人間なのかもしれません。ですが、より良い選択肢があるのに、テキストのストレージを使う理由はほとんどありません。ロギングをする必要性、そしてなぜ、テキストのログストレージに対してそこまで用心深いのかについて、私は何度も尋ねられました。ここに、私が導き出した答えを紹介したいと思います。これは、journalについて弁明する

lepton9 2015/05/21

リンク

Stack Overflow Developer Survey 2015

Overview Every year we run a survey. This year, more developers answered more questions than ever before. 26,086 people from 157 countries participated in our 45-question survey. 6,800 identified as full-stack developers, 1,900 as mobile developers, 1,200 as front-end developers, 2 as farmers, and 12,000 as something else. We conducted this survey to help us better understand our community and to

lepton9 2015/04/09

リンク

Elasticsearch を使った位置情報検索 - クックパッド開発者ブログ

ホリデー事業室の内藤です。ホリデー事業室は昨年の4月に発足した部署で、Holiday（https://haveagood.holiday）という新規サービスの開発を行っています。 Holiday とは、クックパッドが長年取り組んでいる「毎日の料理を楽しみにする」分野からは少しだけ離れ、「いつもの休日を楽しくすることで人生を豊かにする」ことを目指したサービスです。例えばこちらのおでかけプランのように、「〇〇に行くならここも行ったほうがいいよ」や「〇〇を散策するならこのコースだよね」など、おでかけのレシピを投稿したり探すことができるようになっています。今回は、全文検索エンジン Elasticsearch を使って、全文検索と位置情報を絡めた検索についてお話したいと思います。本稿で説明する内容は、実際に Holiday の中でも応用を加えた形で使われています。 Holiday では、複数

lepton9 2015/03/12

リンク

開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD

システムの構築、新しい技術の習得、PythonやDevOpsなどに情熱を注ぐソフトウェア開発者です。現在はチューリッヒを拠点とするビッグデータのスタートアップで働いており、データ分析およびデータ管理ソリューションのためのPythonの技術を磨いています。 1 はじめに Python は開発時間を短縮できるという点で一般的に評価の高い言語です。しかし、Pythonを使って効率よくデータ分析をするには、思わぬ落とし穴があります。動的かつオープンソースのシステムであるという特徴は、初めは開発を容易にしてくれますが、大規模システムの破綻の原因になり得ます。ライブラリが複雑で実行時間が遅く、データの完全性を考慮した設計になっていないので、開発時間の短縮どころか、すぐに時間を使い果たしてしまう可能性があるのです。この記事ではPythonやビッグデータで作業をする時に、最も時間を無駄にしがちな事柄につ

lepton9 2015/02/28

リンク

Prometheus - Monitoring system & time series database

«Even though Borgmon rem ains internal to Google, the idea of treating time-series data as a data source for generating alerts is now accessible to everyone through those open source tools like Prometheus [...]» — Site Reliability Engineering: How Google Runs Production Systems (O'Reilly Media) Open Source Prometheus is 100% open source and community-driven. All components are available under the A

lepton9 2015/01/30

リンク

オープンデータとオープンソースGisを用いたweb上でのインタラクティブ可視化手法について

Ryousuke WayamaSoftware Developer at Northern system service Co.,Ltd.

lepton9 2014/11/12

リンク

TDDの経験と現状のアンケート

「TDD(テスト駆動開発)ってどのくらい使われてるんですか？」と聞かれることがあります。それはですね、俺だって知りたいわー！というわけで、「TDDの経験と現状について」というアンケートを作りました。 10/23の段階で83件の回答がありました。ありがとうございます。TDD人気ありますね。中間報告として、これまでの回答を公開したいと思います。始めた時期と現在の状況のグラフです。回答全体のサマリはこちらで見られます(回答したときに見られるのと同じです)。なお、こちらは随時更新されるので、本エントリの内容と一致しないかもしれません。 https://docs.google.com/forms/d/1pb29VBqO-kd10ks_x9oqvkMUy5rDW4nMoDnBPVM85yc/viewanalytics ※アンケートはまだまだ受付中です。こちらからどうぞ→ http://goo.gl/

lepton9 2014/10/28

リンク

サービス改善はログデータ分析から

2014/09/09に行われた『サーバ/インフラエンジニア養成読本ログ収集〜可視化編』　出版記念！執筆者が語る大講演会！での発表資料です。 http://eventdots.jp/event/137658Read less

lepton9 2014/09/10

リンク

fluentd + MongoDB + Elasticsearch + Kibanaでログを可視化する | 踊る犬.net

Programming, Techno logy fluentd + Mongo DB + Elasticsearch + Kibanaでログを可視化する SaaSは利用料が高いのでOSSを使う要件独自フォーマットのログを扱いたいアプリケーション特化の情報も一緒に格納したいグラフ設定を簡単に柔軟に変えられるようにしたいシステム構成 Chefを使ったセットアップ手順 fluentdの設定 ElasticsearchとKibanaのインストール Elasticsearchの設定 Kibanaの設定参考リンク SaaSは利用料が高いのでOSSを使うサーバのログを可視化するSaaSは沢山あります。 DataDogとかKeen IOとかlibrato、Logglyなどなど。とても便利そうですね。でも価格が高い！なんでもかんでもSaaSに頼ってたら毎月数十万とかになりそうです。貧

lepton9 2014/08/06

リンク

Googleがプログラマのビルドエラーを研究

Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

lepton9 2014/07/23

リンク

Sensu on AWS - Speaker Deck

Component •  Server –  Checkを実⾏行行するにあたっての準備やCheckの結果の処理理やイベントのハンドリングを⾏行行う •  Client –  実際にCheckが⾏行行われる監視対象上にインストールする。Clientはチェック実⾏行行のリクエストを取得したり、Checkを実⾏行行したり、RabbitMQにCheckの結果を送信。Client単体で定期的にチェックを実施するように制御することも可能 •  API –  Sensuのデータに対するRESTベースのAPIを提供。このAPIをコールすると登録済みのClientの情報や現在のイベントなどを取得可能 •  Dashboard –  SensuのWebベースのダッシュボード。ただし機能は少ない(しょぼい)

lepton9 2014/06/21

リンク

トレジャーデータ事例集 1(a).「オンラインゲームソリューション」 - トレジャーデータ（Treasure Data）ブログ

*トレジャーデータはデータ収集、保管、分析のためのエンドツーエンドでサポートされたクラウドサービスです。本シリーズは，弊社事例セミナーで発表した資料をベースに3つの分野における事例を通してトレジャーデータサービスを深く理解してもらえる事を目的としています。事例で学ぶトレジャーデータ 20140612 from Takahiro Inoue 本シリーズは，紹介する3つの分野における事例を通してトレジャーデータサービスを深く理解してもらえる事を目的としています。（事例1）「オンラインゲームソリューション (a) (b)」（事例2）「モダンWebアナリティクス」（事例3）「ECログ分析」オンラインゲームソリューショントレジャーデータ | 米国トレジャーデータ社／トレジャーデータ株式会社オンラインゲーム向けデータマネージメントサービスをソリューションとして提供開始今回は「オンライ

lepton9 2014/06/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (47)

developmentとdataに関するlepton9のブックマーク (64)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス