タグ

ブックマーク / data.gunosy.io (20)

  • dbt snapshot から学ぶ Slowly Changing Dimension - Gunosyデータ分析ブログ

    こんにちは、Gunosy Tech Lab DR&MLOps チームの楠です。 この記事は Gunosy Advent Calendar 2022 の 11 日目の記事です。 昨日の記事は UT@mocyuto さんの『RailsのフロントをReactへリファクタしたとき、スキーマをOpenAPIベースの自動生成にした話』でした。 この記事では、ELT パイプラインにおける Transformation ツールである dbt の snapshot という機能について紹介した後、snapshot の手法を一般化したディメンションモデリングにおける概念である Slowly Changing Dimension を包括的に紹介します。 はじめに dbt とは? dbt についての参考資料 dbt snapshot とは? どんなときに使える? dbt snapshot のまとめ dbt snap

    dbt snapshot から学ぶ Slowly Changing Dimension - Gunosyデータ分析ブログ
  • その実験、再現できますか?pyenvとpoetryによる “そんなに頑張らない” 再現可能な実験環境構築 - Gunosyデータ分析ブログ

    Gunosy Tech Lab リサーチインターンの北田 (@shunk031)です。 深層学習の論文を読んでいるときに著者実装が公開されている旨を見ると嬉しい気持ちになりますよね。 いざ公開レポジトリに飛んだ瞬間その嬉しさは無となることが多いですが、くじけずにやっていきたいです。 著者実装のrequirements.txtをベースにpythonモジュールをインストールするとよく見るやつ こちらの記事は Gunosy Advent Calendar 2020 6日目の記事です。昨日は @625 さんの goで作るfirehoseのデータ変換lambda でした。 tech.gunosy.io その実験、再現できますか? リサーチインターンでは主にGunosyのデータを使った研究をしています。 特に私は深層学習による広告クリエイティブの評価や運用支援に焦点を当てて取り組んでいます*1。 深層

    その実験、再現できますか?pyenvとpoetryによる “そんなに頑張らない” 再現可能な実験環境構築 - Gunosyデータ分析ブログ
  • 2019年のGunosy研究開発チームの振り返りとこれから - Gunosyデータ分析ブログ

    はじめに こんにちは、研究開発チームの関です。 いつのまにやら年末感が漂ってきましたね。今年もクリスマスは赤レンガ倉庫でカップルたちの中アイドルライブを見て過ごしました。*1 年越しはCDJででんぱ組と年越しを迎えるので、クリスマスも年越しも推しと過ごせて幸せです。 さて、この記事はGunosy Advent Calendar 2019の21日目の記事です。*2 この記事では研究開発チームのこの1年の振り返りと、今後について書いて行こうと思います。 自分なりの整理や、社内広報の役割も兼ねています。 はじめに 2018年までの研究開発 2019年の主な活動 業績 学会・研究会への参加 参加した国際学会(いずれも発表参加) 参加した国内学会・研究会 スポンサーした学会 参加レポート 大学での講義 ウェブ工学とビジネスモデル ウェブサービスにおけるデータ分析機械学習 2019年の振り返り よか

    2019年のGunosy研究開発チームの振り返りとこれから - Gunosyデータ分析ブログ
  • A/Bテストのベストプラクティスと落とし穴 ~KDD2019 レポート~ - Gunosyデータ分析ブログ

    はじめに 研究開発チームの関です。古川未鈴さんの結婚、ニジマス大門果琳さんの卒業、uijinの解散とアイドル業界も激動の秋を迎えていますね。 2019年8月4日から5日間、アメリカはアラスカ州アンカレッジで開催されたデータマイニング領域のトップカンファレンスであるKDD2019にGunosyから北田と関が参加・発表してきました。 これまでに2つのレポートを公開しています。 data.gunosy.io data.gunosy.io レポートではTutorialとして開催された「Challenges, Best Practices and Pitfalls in Evaluating Results of Online Controlled Experiments」の内容をレポートします。 内容は現在のA/Bテストのガイドラインと言ってもいい内容で、非常に参考になるポイントが多かったです。

    A/Bテストのベストプラクティスと落とし穴 ~KDD2019 レポート~ - Gunosyデータ分析ブログ
  • Gunosy MLチームでのABテストの設計と運用 - Gunosyデータ分析ブログ

    こんにちは、Gunosy Tech LabのMLチームでマネージャーをしている id:skozawa です。 今日はMLチームで取り組んでいるABテストの設計と運用について紹介したいと思います。 MLチームはプロダクト横断のチームです。メンバーはグノシー、ニュースパス、LUCRAなどのプロダクトチームにも属しながら、開発を進めています。 ABテストについては以前も少し書いたことがあり、基方針は同じなのですが、横断チーム、ロジック開発だからこそある難しさもあり、そのあたりで少し工夫していることなどを書きたいと思います。 tech.gunosy.io ABテストの設計について ABテスト開始のために、タスク、KPI、拡大判断基準の設計をするようにしています。 タスク設計 仮説を立て、タスクのゴールを設定します。 ここでは、controlとtreatmentの差分を明確にすることと、contr

    Gunosy MLチームでのABテストの設計と運用 - Gunosyデータ分析ブログ
  • リサーチインターンの成果がトップカンファレンスであるKDD2019に論文として採択されるまで - Gunosyデータ分析ブログ

    こんにちは。研究開発チームインターンの北田 (shunk031) です。今回は可愛い我が子(研究のことです)について書きます。 この度、私と研究開発チームの関さんで取り組んでいた研究がデータマイニングに関する国際会議KDD2019のApplied Data Science Trackにて採択されました。 gunosy.co.jp 発表した論文は "Conversion Prediction Using Multi-task Conditional Attention Networks to Support the Creation of Effective Ad Creatives"というタイトルで、テキストにフォーカスした広告クリエイティブ作成支援のためのコンバージョン予測がメインの研究です。 arxiv.org 今回はこうした研究がスタートしたきっかけや、インターン中にどのように研究を

    リサーチインターンの成果がトップカンファレンスであるKDD2019に論文として採択されるまで - Gunosyデータ分析ブログ
  • ニュースパスを支える関連記事推薦と近似近傍探索 - Gunosyデータ分析ブログ

    こんにちは。メディアロジック分析部の米田 (@mathetake) です。 今日はGunosy社とKDDI社が共同で運営するニュースパスというニュースアプリケーションで使われている関連記事推薦のアルゴリズムについて書きたいと思います。 特に、約半年前に私が導入しKPIの改善に成功した新しいアルゴリズムと、そこでコアとなる近似近傍探索(Approximate Nearest Neighbor search)の技術について述べます。 関連記事推薦とは この記事で紹介する関連記事推薦とは、「特定のニュースに関連したニュースを推薦すること」です。 より具体的には、特定の記事をクリックした後に記事閲覧画面を下にスクロールすると登場する「おすすめ記事」の枠に対して、関連したニュースを検索して表示することを指します: このような枠が設置されている事は一般的なアプリケーションにおいてごく自然ですが、推薦シ

    ニュースパスを支える関連記事推薦と近似近傍探索 - Gunosyデータ分析ブログ
  • RedshiftとBigQueryでよく使うSQLの違いTips - Gunosyデータ分析ブログ

    データ分析部インターン生の小川です。インターンでは主に動画収集のロジック実装に取り組んでいました。 Gunosyではログの管理にRedshiftとBigQueryを使用しています。 サービスはAWS上で動いているものも多いので基はRedshiftで、ログの量が多いものやアドホック分析に用いるものはBigQueryに格納しています。 この2つのサービスでSQLの書き方が微妙に異なるところがあり、もどかしい経験をしたので、今回は、よく使うSQLの文法でRedshiftとBigQueryで表現が異なる所をまとめてみようと思います。 BigQueryの導入についてはこちらの記事をご覧ください。 また、この記事ではBigQueryはStandard SQLで記述していきます。 data.gunosy.io 日付・時刻関数 現在時刻(UTC) 現在時刻(JST) 現在の日付(UTC) 現在の日付(J

    RedshiftとBigQueryでよく使うSQLの違いTips - Gunosyデータ分析ブログ
  • 【Slack×Re:dash×SpreadSheet】らくらくリアルタイムKPI通知 - Gunosyデータ分析ブログ

    こんにちは、データ分析部のクボタです。最近はアイドルではsora tob sakanaの『ribbon』とアイドルネッサンスの『前髪』と東京女子流の『鼓動の秘密』を良く聴いています。来年のTIFと@jamが楽しみですね。 www.youtube.com www.youtube.com www.youtube.com 現在Gunosyでは様々なプロダクトを運営・開発していますが、施策等における意思決定においてデータを非常に重要な指標として扱っています。そのため、日常より分析部以外のメンバーも含めたダッシュボードやSlackのリアルタイム通知によるプロダクトの現状把握の場を大事にしています。 GunosyがKDDI株式会社と共同で提供しているアプリのニュースパスでは現在ダッシュボードはRe:dashを用いて作成しています。Re:dashは細かいSQLクエリの更新スケジュール設定や、Slack

    【Slack×Re:dash×SpreadSheet】らくらくリアルタイムKPI通知 - Gunosyデータ分析ブログ
  • プロダクト改善のためにウォッチしておくべき7つの指標 - Gunosyデータ分析ブログ

    データ分析部でグノシーというニュースアプリのプロダクト改善を担当している @ij_spitz です。 今回はプロダクト改善のためにウォッチしておくべき7つの指標をSQLで算出してみます。 Gunosyではこれらの指標を、プロダクトに異常があった時に検知するため、また施策の効果検証といった主に2つの目的で使用しています。 簡潔にするため、ユーザーとログインの2つのテーブルを使った算出できる指標のみを対象としています。 また、これらの指標をどうやってプロダクト改善に役立てているのかということも少しではありますが、合わせて書いていきたいと思います。 DAU WAU(MAU) HAU 積み上げHAU 1ユーザーあたりのログイン回数 登録N日後継続率 登録日別N日後継続率 前提 今回のブログで紹介するSQLAmazon Redshift上で動くSQLなので、MySQLGoogle BigQuer

    プロダクト改善のためにウォッチしておくべき7つの指標 - Gunosyデータ分析ブログ
  • 「これからの強化学習」1章の内容で三目並べ - Gunosyデータ分析ブログ

    こんちくわ。データ分析部兼サウンドエンジニアの大曽根です。最近は吾光良&The Swingin Buppersのライブに行きました。 今回は4/12に開催した「これからの強化学習」の輪読会の1.3節で紹介した価値反復法のアルゴリズムを、教科書とは異なる例で実装してみました。 開催報告については下記のブログをご覧ください。 data.gunosy.io メジャーなゲームである三目並べを、1.3節にて紹介されているSarsaを用いて学習しました。 教科書とは別の例で実装することで少しでも理解が深まればと思います。 価値反復に基づくアルゴリズム マルコフ決定過程において価値関数を特定の更新式に従って更新する手法です。(今回はSarsaで試しました。) 発表の際には、tの状態の更新式に次の状態 t+1が含まれているところなどがわかりづらいとの質問を受けました。 価値反復に基づくアルゴリズムでは過

    「これからの強化学習」1章の内容で三目並べ - Gunosyデータ分析ブログ
  • Pandasによる実践データ分析入門 - Gunosyデータ分析ブログ

    こんにちは。データ分析部のオギワラです。最近は「NANIMONO (feat.米津玄師)」をよく聞いています。 今回はPythonデータ分析ライブラリであるPandasについて、実践的なテクニックを「データ処理」「データ集計(Group By)」「時系列処理」の3カテゴリに分けてご紹介していきます。 Pandasに関する基的な内容については、前エントリーで既に紹介されているので、是非こちらもご一読して頂けると幸いです。 data.gunosy.io データ処理 データの取り出し(query) 条件文に基づくデータ処理の適用(where) 各行への関数の適用(apply) データ集計(Group By) カラム毎に異なる集計を適用する(agg) 最大・最小値である行を取り出す(first) 標準化や正規化処理を適用する(transform) 時系列処理 時間の丸め処理(round) 時系

    Pandasによる実践データ分析入門 - Gunosyデータ分析ブログ
  • 【これからの強化学習: 輪読会】Gunosy データマイニング研究会を実施しました - Gunosyデータ分析ブログ

    gunosy-dm.connpass.com こんにちは、データ分析部の阿部です。 今回は、先日開催したデータマイニング研究会という勉強会についてご紹介します。 データマイニング研究会とは 勉強会では書籍の輪読と論文紹介を行い、データマイニングに関する基礎知識の向上及び、先端事例の共有・議論を行うことを目的としています。 2週間に1回のペースで開催されており、社外にも公開し広く知見を共有することを目指しています。 Gunosy創業時から取り組んでいるためこの手の勉強会としては歴史は長く(?)、今回で117回目になりました。 これからの強化学習 今回からは「これからの強化学習」を進めていて、1.1と1.2を終わらせました。 内容は強化学習の基礎的なところで、強化学習の構成要素が中心となっています。 これからの強化学習 作者: 牧野貴樹,澁谷長史,白川真一,浅田稔,麻生英樹,荒井幸代,飯間等

    【これからの強化学習: 輪読会】Gunosy データマイニング研究会を実施しました - Gunosyデータ分析ブログ
  • 【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ

    こんにちは、データ分析部でバイトをしている子田(id:woody_kawagoe)です。 ニュースパスのログを集計して分析するといった業務を行っています。Gunosyで分析に利用しているツールとしては主にJupyter, Pandas, matplotlibがあります。 この組み合わせは非常に相性が良く、研究でも役立つと思います。 そこで今回のブログではデータ分析に役立つtipsや学んだことをまとめます。 Jupyter Pandas matplotlab データ分析の基的な流れ 参考資料 Jupyter jupyter.org ブラウザ上で利用できる開発環境です。 対話型で、作成したスクリプトと出力結果の対応関係が非常に見やすいです。 スクリプトでprint文をかかなくても最終行に変数おけば表示してくれます。 またgithub上にJupyterで作成できるipynbファイルを置くと他の

    【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ
  • Amazon Kinesis AnalyticsとES/Kibana4でリアルタイムダッシュボード構築 - Gunosyデータ分析ブログ

    こんにちは。開発・運用推進部の小出です。 イヤホンを噛み切られること数回、最近のBGMはもっぱら環境音です。 「耳からうどんが出ているようにしか見えない」という噂のBluetoothイヤホンが気になっています。 今回は、Amazon Kinesis AnalyticsとElasticsearch/Kibana4を利用したリアルタイムダッシュボード構築についてです。 Amazon Kinesis Analytics とは ダッシュボードを構築してみる Source StreamとMapping Query Destination ログデータを拡充する Reference DataとMapping Query Destination まとめ おまけ:AmazonES&Kibana4のダッシュボード共有 Amazon Kinesis Analytics とは Amazon Kinesis A

    Amazon Kinesis AnalyticsとES/Kibana4でリアルタイムダッシュボード構築 - Gunosyデータ分析ブログ
  • Re:dashで異なるData Sourceのクエリ結果をJOINできるようになったので試してみた - Query Results (Alpha) - Gunosyデータ分析ブログ

    こんにちは。グノシー開発部で部長をしている@cou_zです。最近はDJ RYOWのビートモクソモネェカラキキナ 2016 REMIXをよく聴いています。11/23のライブが楽しみですね。 Gunosyにおけるプロダクト改善は、データ可視化による現状把握から始まると考えています。Gunosyではデータ可視化にいくつかのツールを利用していますが、その中でも最近はRe:dashを用いることが多くなってきました。 先日、Re:dashを用いたリアルタイムKPI通知について紹介しました。 data.gunosy.io 今回は、Re:dashの新しい機能である Query Results (Alpha) Data Source を紹介します。 この機能により、複数Data Sourceのクエリ結果のJOINが可能になりました。アルバイトで分析を担当している松嶋も「ついに使えるようになったんですね!!r

    Re:dashで異なるData Sourceのクエリ結果をJOINできるようになったので試してみた - Query Results (Alpha) - Gunosyデータ分析ブログ
  • 5分でわかる!BigQuery Tips集 - Gunosyデータ分析ブログ

    こんにちは。データ分析部の阿部です。 今回はBigQueryについてです。 GunosyではもともとRedshiftで運用していましたが、 クエリによっては時間がかかり処理しきれない 同時にクエリを投げると詰まる などの課題を解決するためにBigQueryを一部で導入しました。 今回はBigQuery導入するときのTipsを紹介したいと思います。 Standard SQL テーブルワイルドカード関数 Partitioned Table Re:dashに接続する方法 Google Apps Script を使ってクエリ結果をSlackに通知する方法 まとめ Standard SQL 現時点でベータ版ですが、ついにBigQueryでも標準SQLを使ってクエリを書けるようになりました。 これまでの SQL (Legacy SQL) は癖が強く、 distinct を使って重複を取り除くこともでき

    5分でわかる!BigQuery Tips集 - Gunosyデータ分析ブログ
  • 【Slack×Re:dash】リアルタイムKPI通知をコード0行で実現する - Gunosyデータ分析ブログ

    データ分析部で部長をしている@cou_zです。最近はLIBROのマイクロフォンコントローラーをよく聴いています。 Gunosyにおけるプロダクト改善は、データ可視化による現状把握から始まると考えています。 ログを収集して、ダッシュボードでKPI(重要業績指標)を可視化することは、今では当たり前のことになっていると思います。深夜バッチでKPIを集計して、翌朝に確認することは重要ですが、KPIをリアルタイムに知ることによって、現状把握がさらに進むことがあります。 しかし、リアルタイムにKPIを集計できたとしても、実際にそれらを確認するとは限りません。頻繁にダッシュボードを見るのはとても億劫で、次第に見なくなってしまいがちです。そこで、日常的に開いているチャットにKPIがリアルタイムに通知されると、確認の際の負担を軽減することができます。 Gunosyでは、チャットツールにSlackをダッシュボ

    【Slack×Re:dash】リアルタイムKPI通知をコード0行で実現する - Gunosyデータ分析ブログ
  • 海外の有名IT企業のABテストブログまとめ - Gunosyデータ分析ブログ

    データ分析部の @ij_spitz です。 普段の業務では主にABテストを用いたプロダクト改善、ユーザーの行動分析などを行っています。 今日はタイトルにもある通り、プロダクト改善をするためにABテストを始めてみたいけど何をすればいいのかわからない、実際にABテストをやってみたけど当にこれで定量的な評価ができているのか心配、新しくABテストを自動で集計・評価できる基盤を作りたい、という時に参考にしたいブログを紹介します。 海外にはTwitterやLinkedInなどを始めとして、自社のABテストの基盤やノウハウをブログで公開している企業が数多くあります。 もちろんブログの中身は英語ですが、頑張って読んでみると日ではあまり知られていないことが書いてあったりするので、ぜひ一度読んでみることをおすすめします。 Twitter Engineering | Twitter Blogs Twitte

    海外の有名IT企業のABテストブログまとめ - Gunosyデータ分析ブログ
  • いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ

    アライアンス事業開発部の大曽根(@dr_paradi)です。 ニュースパスというアプリの分析と開発を行っております。 今回は機械学習の評価関数のお話をします。 内容は、【FiNC×プレイド】Machine Learning Meetup #1 - connpassで発表したものになります。 発表資料 いまさら聞けない機械学習の評価指標 from 圭輔 大曽根 www.slideshare.net 機械学習における評価 現在は機械学習ライブラリが充実しており、また、Webサービスの普及により学習に必要なデータの獲得も以前と比較して容易になっています。 そのため、機械学習のビジネス利用への敷居が下がっています。 予測や分類といった問題を解く際には、設定した課題に対してどのモデルが最も適しているかを評価するための指標(評価関数)が必要になります。 Kaggle*1などのコンペティションではあらか

    いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ
  • 1