インフラ部 & 技術部の青木峰郎です。 クックパッドでは全社的にAmazon Redshiftを中心としたデータ活用基盤を構築しています。 今日はその全体像についてお話ししたいと思います。 データ活用基盤の全体像 まず、以下にクックパッドのデータ活用基盤の全体像を示します。 大きく分けると入力が2系統、内部処理が1系統、出力が3系統あります。 入力はMySQLからのインポートとログのロードがあり、どちらも独自に構築したシステムで行われています。 DB内部のデータ処理はSQLバッチのみです。 そして出力は管理画面やBIツールからのアクセスとバッチ処理によるエクスポートに大別できます。 以下1つずつ説明していきましょう。 入力その1: MySQLインポートシステム MySQLからRedshiftへのマスターテーブル取り込みにも独自のインポートシステムを使っています。 このインポート処理には、つ
TOPICS Data Science , Database , Python 発行年月日 2017年01月 PRINT LENGTH 400 ISBN 978-4-87311-786-7 原書 Data Science from Scratch FORMAT PDF 本書は、データサイエンスも、プログラミングも最初から学んでみたい、という要望に応える、幅広いトピックをカバーしたデータサイエンスの入門書です。架空のソーシャルネットワーク運営企業、データサイエンス・スター社のデータサイエンティストとして、さまざまな課題を解決しながら、必要な知識とスキルを着実に積み上げていきます。Pythonプログラミングの基礎から線形代数、統計確率の基礎、回帰、機械学習、ナイーブベイズ、決定木、ニューラルネットワーク、自然言語処理、グラフ解析、リコメンドシステム、データベースとSQL、MapReduceまで
まとめます。細かく書いたら本が2冊くらいできそうですが、僕がアナライザとして頑張ってるところを中心にまとめます。 アカウント開設・使用法 www.google.com/analytics/ja-JP/ Googleアカウント(メールアドレス登録)を作って、それをAnalyticsで使うようにすればOK。 アクセスログの計測が始まれば、登録した本人ではなくてもデータを見れる。見せたい人のGoogleアカウントを登録すればいいだけ。なので、僕のアカウント(ryownet[at]gmail)を追加してくれれば、ガンガン見ますよ!! 基本用語 セッション ユーザーがサイト内のページを閲覧を開始してから他のサイトに行ったり閉じるまでを、ひとつのセッションとしてカウントされます。 1セッションは30分以内のページ遷移。それを超えると2セッション目としてカウントされます。 離脱 他のサイトへ移動、または
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く