タグ

ブックマーク / data.gunosy.io (10)

  • データ分析について学んだこと by サマーインターンシップ - Gunosyデータ分析ブログ

    こんにちは。データ分析部インターン生の荻原です。 最近はThe Script - Superheroesをよく聞いています。 記事では、私と同じデータ分析部所属の大原が9/20・21の2日間開催されたエンジニア職向けサマーインターンシップに参加したので、 その模様及びそこから得た学びを共有したいと思います! Gunosy Summer Internship 2016とは エンジニア職向けサマーインターンシップの様子 Gunosyに関する講義 Gunosyの開発組織・技術に関する講義 ハッカソン インターンシップでの気づき(荻原) データ・機械学習アルゴリズム理解の重要性 「切り捨てるもの」を明確にすること 状況に応じて作業方針をダイナミックに変更する決断力の大切さ インターンシップでの気づき(大原) 機械学習のモデルに対する理解と経験が必要 評価手法について理解すること 終わりに Gun

    データ分析について学んだこと by サマーインターンシップ - Gunosyデータ分析ブログ
    werdandi
    werdandi 2020/02/29
  • A/Bテストのベストプラクティスと落とし穴 ~KDD2019 レポート~ - Gunosyデータ分析ブログ

    はじめに 研究開発チームの関です。古川未鈴さんの結婚、ニジマス大門果琳さんの卒業、uijinの解散とアイドル業界も激動の秋を迎えていますね。 2019年8月4日から5日間、アメリカはアラスカ州アンカレッジで開催されたデータマイニング領域のトップカンファレンスであるKDD2019にGunosyから北田と関が参加・発表してきました。 これまでに2つのレポートを公開しています。 data.gunosy.io data.gunosy.io レポートではTutorialとして開催された「Challenges, Best Practices and Pitfalls in Evaluating Results of Online Controlled Experiments」の内容をレポートします。 内容は現在のA/Bテストのガイドラインと言ってもいい内容で、非常に参考になるポイントが多かったです。

    A/Bテストのベストプラクティスと落とし穴 ~KDD2019 レポート~ - Gunosyデータ分析ブログ
    werdandi
    werdandi 2020/02/29
  • より正しい意思決定のための統計的仮説検定とサンプルサイズ計算 - Gunosyデータ分析ブログ

    はじめに こんにちは、Gunosy Tech LabのBIチームに所属しているクボタです。 Gunosyではアプリ内のロジックやUI等の変更において数値ベースでの意思決定を行なっています。 例えば新たなキャンペーンでのCVR増加やUI変更によるA/Bテストでのクリック数増加の効果検証などで統計的に裏打された手法を用いることで正しく意思決定を行うことを目指しています。 data.gunosy.io 記事ではそのような状況で必要となるサンプルサイズの設計や統計的仮説検定のお話をさせていただきます。 はじめに 検定手法の選択 統計的仮説検定の手順 比較する指標の選定 帰無仮説 と対立仮説 の決定 検定統計量の選定 有意水準の決定 検出力の決定 効果量の決定 サンプルサイズの計算 ノンパラメトリック検定 多重比較 おわりに 参考文献 検定手法の選択 数値による意思決定を行う際に検定はよく利用され

    より正しい意思決定のための統計的仮説検定とサンプルサイズ計算 - Gunosyデータ分析ブログ
    werdandi
    werdandi 2020/02/29
  • A/Bテストの時間短縮に向けて 〜ベイズ統計によるA/Bテスト入門〜 - Gunosyデータ分析ブログ

    はじめに こんにちは、19卒でGunosy Tech LabのBIチームの齊藤です。 data.gunosy.io この記事はGunosy Advent Calender 2019の4日目の記事です。昨日の記事は高橋さん(@tkhs0604)によるプロダクトマネージャーカンファレンス2019 参加レポート でした。 はじめに 背景 ベイズ統計 例: 継続率 事後分布のプロット 継続率以外の指標は? おわりに 背景 GunosyではUI・ロジックの変更等を行う際にA/Bテストにより効果検証を行っています。 data.gunosy.io 上記のブログの通り、従来の(頻度論に基づく)仮説検定ではA/Bテストを開始する前に有意水準、検出力、効果量を定めてサンプルサイズを求めなければなりません。またサンプルサイズを定めても必要なサイズを満たすのに何日かかるかも不透明であり、施策の実行→A/Bテスト→

  • Pandasによる実践データ分析入門 - Gunosyデータ分析ブログ

    こんにちは。データ分析部のオギワラです。最近は「NANIMONO (feat.米津玄師)」をよく聞いています。 今回はPythonデータ分析ライブラリであるPandasについて、実践的なテクニックを「データ処理」「データ集計(Group By)」「時系列処理」の3カテゴリに分けてご紹介していきます。 Pandasに関する基的な内容については、前エントリーで既に紹介されているので、是非こちらもご一読して頂けると幸いです。 data.gunosy.io データ処理 データの取り出し(query) 条件文に基づくデータ処理の適用(where) 各行への関数の適用(apply) データ集計(Group By) カラム毎に異なる集計を適用する(agg) 最大・最小値である行を取り出す(first) 標準化や正規化処理を適用する(transform) 時系列処理 時間の丸め処理(round) 時系

    Pandasによる実践データ分析入門 - Gunosyデータ分析ブログ
    werdandi
    werdandi 2018/08/22
  • Facebookの予測ライブラリProphetを用いたトレンド抽出と変化点検知 - Gunosyデータ分析ブログ

    Gunosyデータ分析部アルバイトの五十嵐です。 Gunosyには大規模なKPIの時系列データがあります。 今回はKPIの時系列分析を行なった際に得た知見についてまとめたいと思います。 具体的にはFacebookが開発した時系列予測ツール Prophetを用いて、KPIのトレンド分析を行いました。 時系列予測について Prophetについて 実装例 モデルの適用 将来のアクセス数予測 トレンド性と周期性の抽出 変化点抽出 Slackを利用した自動化 まとめ 時系列予測について 以前、 KPIのトレンド抽出について以下のブログで紹介しました。 data.gunosy.io ここでは時系列データをトレンド成分と季節成分に分解し、トレンドの把握を容易にする分析を行なっていました。 KPIのトレンドを知ることでサービスの状態を把握することが目的でした。 今回はこの分析をさらに進め、トレンドの変化点

    Facebookの予測ライブラリProphetを用いたトレンド抽出と変化点検知 - Gunosyデータ分析ブログ
  • 【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで - Gunosyデータ分析ブログ

    こんにちは。初めまして。 データ分析部新入りのmathetake(@mathetake)と申します。 先日個人ブログでこんなエントリを書いた人です: mathetake.hatenablog.com そんなこんなでTwitter就活芸人(?)として活動(?)してましたが、これからは真面目に頑張っていこうと思います。 今日はみんな大好きベイズモデリングおいて、事後分布推定に欠かせないアルゴリズム(群)の一つである*1 マルコフ連鎖モンテカルロ法(Markov chain Monte Carlo) 通称MCMCに関するエントリです。より具体的に、 MCMCの意義(§1.)から始め、マルコフ連鎖の数学的な基礎(§2.,3.,4.)、MCMCの代表的なアルゴリズムであるMetropolis-Hastings法(§5.)、その例の1つである*2Langevin Dynamics(§6.)、そして(僕

    【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで - Gunosyデータ分析ブログ
  • 【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ

    こんにちは、データ分析部でバイトをしている子田(id:woody_kawagoe)です。 ニュースパスのログを集計して分析するといった業務を行っています。Gunosyで分析に利用しているツールとしては主にJupyter, Pandas, matplotlibがあります。 この組み合わせは非常に相性が良く、研究でも役立つと思います。 そこで今回のブログではデータ分析に役立つtipsや学んだことをまとめます。 Jupyter Pandas matplotlab データ分析の基的な流れ 参考資料 Jupyter jupyter.org ブラウザ上で利用できる開発環境です。 対話型で、作成したスクリプトと出力結果の対応関係が非常に見やすいです。 スクリプトでprint文をかかなくても最終行に変数おけば表示してくれます。 またgithub上にJupyterで作成できるipynbファイルを置くと他の

    【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ
  • さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門 - Gunosyデータ分析ブログ

    久しぶりの投稿になってしまいましたが、ニュースパス(現在CM放映中!!)開発部の大曽根です。 作業中はGrover Washington Jr のWinelightを聴くと元気が出ます。参加ミュージシャンが素晴らしいですね。 なぜ時系列分析をするのか 季節調整 実演 おまけ: 時間別に見てみる まとめ 今後 なぜ時系列分析をするのか 数値を非常に重視している弊社では、数値を知るためのツールとしてRedashやChartioおよびSlackへの通知を活用しています。現在の数値を理解する上では、長期のトレンド(指標が下がっているのか、上がっているのか)を知ることが重要です。しかし、日々変化するデータ(特に売上やKPIと言われる指標)は、ばらつきも大きく、変化を適切に捉えることが難しいこともあります。 特にSlackなどへの通知を行っていると、日々の変化に囚われがちです。例えば、弊社ではニュース

    さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門 - Gunosyデータ分析ブログ
  • いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ

    アライアンス事業開発部の大曽根(@dr_paradi)です。 ニュースパスというアプリの分析と開発を行っております。 今回は機械学習の評価関数のお話をします。 内容は、【FiNC×プレイド】Machine Learning Meetup #1 - connpassで発表したものになります。 発表資料 いまさら聞けない機械学習の評価指標 from 圭輔 大曽根 www.slideshare.net 機械学習における評価 現在は機械学習ライブラリが充実しており、また、Webサービスの普及により学習に必要なデータの獲得も以前と比較して容易になっています。 そのため、機械学習のビジネス利用への敷居が下がっています。 予測や分類といった問題を解く際には、設定した課題に対してどのモデルが最も適しているかを評価するための指標(評価関数)が必要になります。 Kaggle*1などのコンペティションではあらか

    いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ
  • 1