エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
億件オーダーのデータ移行ツールの検証の際に、確率計算とサンプリングを用いて効率的にテストをした話 - Uzabase for Engineers
記事へのコメント1件
- 人気コメント
- 新着コメント
人気コメント算出アルゴリズムの一部にヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
関連記事
億件オーダーのデータ移行ツールの検証の際に、確率計算とサンプリングを用いて効率的にテストをした話 - Uzabase for Engineers
こんにちは。 NewsPicksエンジニアの鶴房です。 2020年1月に入社して、既に1年が経ちました! 今回は入... こんにちは。 NewsPicksエンジニアの鶴房です。 2020年1月に入社して、既に1年が経ちました! 今回は入社して最初に任せていただいた案件で、億件オーダーのデータ移行ツールの検証の際に、サンプリングを用いて効率的にテストをした話をさせてもらいます。 何がしたかったのか NewsPicksでは、AWSのRedshiftを用いて、アクセスログやユーザーの行動ログの蓄積と解析を行っています。 解析の結果は、マーケティングの指標や機械学習などに利用されています。 これらのログですが、生データは、RDSやnginxにあるので、それらを加工して、Redshiftに流すスクリプトがありました。 このデータ移送スクリプトをAWS Glueを用いた新しいスクリプトでリプレースすることになりました。 どんな課題があったのか ほぼほぼ完成して後はリリースのみ、となったときにテストをどうしようかという問題