「データ分析の門をたたいて2年が経ちました」 s-dev talks 〜サービス開発勉強会〜「定量データ分析」 https://s-dev-talks.connpass.com/event/128911/
この記事は Retty Advent Calendar 18日目の記事です。 昨日は@isaoekaさんの会社の行動規範浸透を図るため、メニューバーからいつでも確認できるアプリを作ったの話でした。 はじめまして、Rettyのデータ分析チームでマネージャーをやっている平野です。 Rettyのデータ分析チームは今年4月に立ち上げ現在9ヶ月目です。 この記事では立ち上げから9ヶ月でやってきた組織的取り組みについて中心に書きました。 今アドベントカレンダーではデータ分析の技術的取り組みついてを、一緒にデータ分析チームを立ち上げた@takegueが書いてますので、そちらも合わせて読んでいただけますと幸いです。 ベンチャー企業におけるDWH DevOps @ Retty - Retty Tech Blog Webサービスを支えるユーザログ基盤開発@Retty - Retty Tech Blog 目次
こんにちは。去年の今頃は Rust を書いていました。 インフラストラクチャー部データ基盤グループの id:koba789 です。 背景 クックパッドではデータ基盤の DBMS として Amazon Redshift を利用しています。 既存のデータ基盤について詳しいことは クックパッドのデータ活用基盤 - クックパッド開発者ブログ を参照してください。 今まで、ログは数時間に1度、定期実行ジョブで Redshift 内のテーブルにロードしていました。 ロードジョブの実行間隔が "数時間" と長めなのは、Redshift のトランザクションのコミットが遅いためです。 クックパッドでは数百ものログテーブルがあるため、仮に1分おきにすべてを取り込もうとすると秒間数回以上のコミットを行わなければなりません。 このような頻繁なコミットは Redshift 全体のパフォーマンスを悪化させてしまいます
※ Retty Advent Calendar 15日目の記事です おしながき はじめに ベンチャー企業とデータ活用 完璧さよりも早さを重視する Rettyにおける現状 DWHの開発で大切にしていること プロダクトとしてのUXを大事に プロダクトとしての変化を大事に 開発者として横断的な動きを大事に RettyにおけるDWHの開発プラクティス BigQueryを中心としたデータ基盤 アウトプットを最大化するためのダッシュボードツール スプレッドシートによるお手軽ダッシュボード データポータル (Datastudio) データソースのUX/DX データソースの集約化 As-is ではなく As-was 分析者も巻きこみDWHの品質改善を行っていく 技術スタックはSQLを中心とする 仮想テーブル (View) <-> 実テーブル による スキーマのPoC SQLによるView/データソースのユ
Twitterで見かけた以下の記事で紹介されていた論文がおもしろそうだったので読んだ感想と内容のてきとーな紹介(詳しく知りたい人は元論文を呼んでください) マイクロソフトの研究者による、いわゆる A/B テストにおいてメトリックを解釈するときに陥りがちな罠12選。実例がことごとく直感に反していてとても面白かった。 https://t.co/jC9JOsx1uB— Shuhei Takahashi (@nya3jp) 2017年10月11日 内容が間違っている部分があったらコメントなどで教えていただけると嬉しいです 論文 このKDD2017の論文ではABテストの結果を解釈する時に陥りがちな12種類の罠についてMicrosoftの研究者が実例と対策を交えて説明しています Pavel Dmitriev, Somit Gupta, Dong Woo Kim and Garnet Vaz, "A D
インフラ部 & 技術部の青木峰郎です。 クックパッドでは全社的にAmazon Redshiftを中心としたデータ活用基盤を構築しています。 今日はその全体像についてお話ししたいと思います。 データ活用基盤の全体像 まず、以下にクックパッドのデータ活用基盤の全体像を示します。 大きく分けると入力が2系統、内部処理が1系統、出力が3系統あります。 入力はMySQLからのインポートとログのロードがあり、どちらも独自に構築したシステムで行われています。 DB内部のデータ処理はSQLバッチのみです。 そして出力は管理画面やBIツールからのアクセスとバッチ処理によるエクスポートに大別できます。 以下1つずつ説明していきましょう。 入力その1: MySQLインポートシステム MySQLからRedshiftへのマスターテーブル取り込みにも独自のインポートシステムを使っています。 このインポート処理には、つ
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます --現在担当されている業務内容を教えてください。 現在はアクセスログ解析や機械学習を用いた業務改善を担う全社横断の分析グループのリーダーをしています。時間の使い方としては、メンバー3人の進捗管理や分析アドバイス、他部門担当者との折衝などが7割程度で、残りの3割が実際に手を動かす分析業務です。 --データをどのように活用していますか。 主にユーザーの閲覧ログや行動ログのデータを対象に統計解析や機械学習の手法を適用してサービスを改善しています。 例えば最近の事例では、正社員求人情報サービス「ジョブセンスリンク」のアプリ会員登録の導線改善があります。これまではユーザーの総数が少ないこともあり、コンバージョン数の少ない箇所でのA/Bテストでは、
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く