タグ

ブックマーク / data.gunosy.io (14)

  • A/Bテストのベストプラクティスと落とし穴 ~KDD2019 レポート~ - Gunosyデータ分析ブログ

    はじめに 研究開発チームの関です。古川未鈴さんの結婚、ニジマス大門果琳さんの卒業、uijinの解散とアイドル業界も激動の秋を迎えていますね。 2019年8月4日から5日間、アメリカはアラスカ州アンカレッジで開催されたデータマイニング領域のトップカンファレンスであるKDD2019にGunosyから北田と関が参加・発表してきました。 これまでに2つのレポートを公開しています。 data.gunosy.io data.gunosy.io レポートではTutorialとして開催された「Challenges, Best Practices and Pitfalls in Evaluating Results of Online Controlled Experiments」の内容をレポートします。 内容は現在のA/Bテストのガイドラインと言ってもいい内容で、非常に参考になるポイントが多かったです。

    A/Bテストのベストプラクティスと落とし穴 ~KDD2019 レポート~ - Gunosyデータ分析ブログ
    advblog
    advblog 2019/10/03
  • 双曲空間ではじめるレコメンデーション - Gunosyデータ分析ブログ

    はじめに こんにちは、MediaAds ML Teamに所属している飯塚(@zr_4) です。 以前書いたブログ*1をベースに変更を加えた論文がRecSys 2019 *2 に通りました(ヤッター)。 埋め込みベースの推薦は、近年最も成功を収めた推薦手法の一つです。 埋め込みベースの推薦を行っている多くの大企業では、精度良くアイテムやユーザーを表現するため、数百次元のベクトルを使用しています。それによって、莫大な計算リソースを日々消費していることと思います。またリアルタイムにベクトルの演算を行うために検索システムを自作している企業も少なくないと思います*3。負荷の大きさから、特定のロジックの実装に踏み込めないケースも多々あるかと思います。 一方で近年、埋め込みの空間に双曲空間を用いることで、階層構造、木構造、Directed Acyclic Graph (DAG) が低次元のベクトルで表現

    双曲空間ではじめるレコメンデーション - Gunosyデータ分析ブログ
    advblog
    advblog 2019/07/11
  • 言語処理学会第25回年次大会(NLP2019)に一般発表とスポンサーで参加しました - Gunosyデータ分析ブログ

    こんにちは、研究開発チームの関です。 でんぱ組.incの推しである相沢梨紗さんと、妄キャリの推しだった桜野羽咲さんのコラボユニットが格的に活動を開始しました。 生きてるといいことありますね。ステージ上の目のやり場に困っています。 今回3/12 ~ 3/15に名古屋大学で開催された言語処理学会第25回年次大会に一般発表とスポンサーとして参加しました。 言語処理学会年次大会へのスポンサーは今年で4年目になりますが、一般発表は初めてになります。 (昨年は論文賞をいただき、招待講演をさせていただいておりました。) data.gunosy.io 一般発表 一般発表では、Gunosyで研究開発チームでインターンをしている北田 (shunk031) が「広告クリエイティブ自動生成にむけたマルチタスク学習とConditional AttentionによるCVR予測」という題目で発表を行いました。予稿はこ

    言語処理学会第25回年次大会(NLP2019)に一般発表とスポンサーで参加しました - Gunosyデータ分析ブログ
    advblog
    advblog 2019/04/05
  • 社内技術ブログのはじめかた - Gunosyデータ分析ブログ

    はじめに きっかけ 執筆計画を立てる 1. 分析に興味がある人のペルソナを書く 2. 1が検索するであろうクェリの一覧をつくる 3. 検索ボリュームしらべる 4. カテゴリ分け 5. 作るべき記事のリスト(記事タイトルまでだいたいきめちゃう)をつくる 6. 記事を書く担当者とスケジュール引く おまけ おわりに はじめに こんにちは。グノシー事業部の大曽根です。好きな曲はザ・ディランⅡの「男らしいってわかるかい」です。 この記事はGunosy Advent Calendar 2018の12日目の記事です。 昨日はhongmhoonさんのiOSでNotificationを非同期で送ろうでした。 最近、プライベートや採用面談などで「会社で技術ブログなどを書きたいけど始められない (or 始めたけど続かない)」という相談を受けるので、弊ブログが如何にして立ち上がったかをまとめたいと思います。 ※

    社内技術ブログのはじめかた - Gunosyデータ分析ブログ
    advblog
    advblog 2018/12/13
  • A/Bテストよりすごい?はじめてのインターリービング - Gunosyデータ分析ブログ

    はじめに こんにちは。メディアデータ分析部の飯塚(@zr_4)です。 弊社では現在、複数のニュース形式のアプリケーションを運用しており、各プロダクトでユーザーの趣向にあうような記事リストのパーソナライズを行っています。 左から:LUCRA、ニュースパス、グノシー そのため、記事のランキングに関するA/Bテストをする機会が多々あり「少数のユーザーで高速に有力なパラメータを探したい」というニーズがありました。 今回は上記ニーズを満たすべく、グノシーの番環境に導入したインターリービングを紹介します。 インターリービングとは 概要 インターリービングは高感度なランキング評価手法です。 実験的に、10倍から100倍従来のA/Bテストよりも効率的であることが知られています。*1 従来のA/Bテストにおいて、2つのランキングリストを評価する際は、ユーザを2つの群に分け各々に別々のランキングリストを提示

    A/Bテストよりすごい?はじめてのインターリービング - Gunosyデータ分析ブログ
    advblog
    advblog 2018/10/15
  • サムネイル画像に対するテキスト認識の性能比較について (Pytesseract / Google Cloud Vision API / Amazon Rekognition) - Gunosyデータ分析ブログ

    こんにちは。データ分析部アルバイトの北田 (@shunk031) です。好きなべ物は畳み込みニューラルネットワークです。 はじめに Gunosyでは広告を出稿する際に使用するサムネイル画像や広告画像において、テキストが占める割合の多い画像を把握したいといったニーズがあります。 Facebookの広告ポリシー*1では、広告内のテキストが過剰であるときに配信数が減ってしまったり、まったく配信されなくなる場合があるようです。 通常、画像から文字を読み取るOCR技術を利用することで前述のニーズを満たすことができそうです。 OCRを利用するにはPythonから使えるpytesseractや、Google Cloud Vision APIAmazon RekognitionといったクラウドベースのAPIを用いる方法があります。 これらpytesseract、Google Cloud Vision

    サムネイル画像に対するテキスト認識の性能比較について (Pytesseract / Google Cloud Vision API / Amazon Rekognition) - Gunosyデータ分析ブログ
    advblog
    advblog 2018/05/09
  • 言語処理学会第24回年次大会(NLP2018)に参加 & 論文賞受賞しました - Gunosyデータ分析ブログ

    はじめまして、データ分析部の小澤(id:skozawa)です。 3月12日(月)〜3月16日(金)に開催された言語処理学会第24回年次大会(NLP2018) @岡山コンベンションセンターに、Gunosyから、関、久保、茂木、桾澤(インターン生)、小澤の5名で参加しました。 スポンサー発表 今回、Gunosyはゴールドスポンサーとして参加し、スポンサーブースでは、Gunosyにおける自然言語処理や機械学習を活用した取り組みについて、ポスター発表しました。 具体的には、以下のような発表をしました。 記事・動画閲覧ログを利用したニュース・動画配信の最適化 記事・動画閲覧ログを利用した広告配信の最適化 クリックベイトの分析 クリックされやすいがユーザの満足度を伴わないコンテンツの調査・定量化 DEIM 2018でも発表(タイトルと画像が一致しないニュース記事による クリックベイトの文析, 関, D

    言語処理学会第24回年次大会(NLP2018)に参加 & 論文賞受賞しました - Gunosyデータ分析ブログ
    advblog
    advblog 2018/03/27
  • プロダクト改善のためにウォッチしておくべき7つの指標 - Gunosyデータ分析ブログ

    データ分析部でグノシーというニュースアプリのプロダクト改善を担当している @ij_spitz です。 今回はプロダクト改善のためにウォッチしておくべき7つの指標をSQLで算出してみます。 Gunosyではこれらの指標を、プロダクトに異常があった時に検知するため、また施策の効果検証といった主に2つの目的で使用しています。 簡潔にするため、ユーザーとログインの2つのテーブルを使った算出できる指標のみを対象としています。 また、これらの指標をどうやってプロダクト改善に役立てているのかということも少しではありますが、合わせて書いていきたいと思います。 DAU WAU(MAU) HAU 積み上げHAU 1ユーザーあたりのログイン回数 登録N日後継続率 登録日別N日後継続率 前提 今回のブログで紹介するSQLAmazon Redshift上で動くSQLなので、MySQLGoogle BigQuer

    プロダクト改善のためにウォッチしておくべき7つの指標 - Gunosyデータ分析ブログ
    advblog
    advblog 2017/07/05
  • Pandasによる実践データ分析入門 - Gunosyデータ分析ブログ

    こんにちは。データ分析部のオギワラです。最近は「NANIMONO (feat.米津玄師)」をよく聞いています。 今回はPythonデータ分析ライブラリであるPandasについて、実践的なテクニックを「データ処理」「データ集計(Group By)」「時系列処理」の3カテゴリに分けてご紹介していきます。 Pandasに関する基的な内容については、前エントリーで既に紹介されているので、是非こちらもご一読して頂けると幸いです。 data.gunosy.io データ処理 データの取り出し(query) 条件文に基づくデータ処理の適用(where) 各行への関数の適用(apply) データ集計(Group By) カラム毎に異なる集計を適用する(agg) 最大・最小値である行を取り出す(first) 標準化や正規化処理を適用する(transform) 時系列処理 時間の丸め処理(round) 時系

    Pandasによる実践データ分析入門 - Gunosyデータ分析ブログ
    advblog
    advblog 2017/05/12
  • 世界を代表する8人の旬なトップ機械学習研究者たち (2017年上半期版) - Gunosyデータ分析ブログ

    データ分析部の久保です。 最近行ったライブはAimerのAcoustic Live Tour 2017です。 早いもので2017年も3月になりましたが、機械学習分野は相変わらずとてもホットな分野です。 去年はAI人工知能という言葉がディープラーニングとともにバズワードになり、その傾向は尚も続いています。 その流行の元となったのが機械学習なわけですが、今その最先端ではどういう人がどのような研究をしているのかをかなりざっくりと見ていきたいと思います。 調査方法は2013年に同様のことを行ったとき qiita.com と同じく、NIPSとICMLという機械学習の代表的国際会議の過去3年分を対象とし、1st authorの重要度をそれ以外の著者よりも重くしてスコアづけしました。具体的には複数人の著者がいる場合は1st authorを0.8として、残りの0.2を他の著者に分配、1人の場合は1として

    世界を代表する8人の旬なトップ機械学習研究者たち (2017年上半期版) - Gunosyデータ分析ブログ
    advblog
    advblog 2017/03/03
  • データ分析について学んだこと by サマーインターンシップ - Gunosyデータ分析ブログ

    こんにちは。データ分析部インターン生の荻原です。 最近はThe Script - Superheroesをよく聞いています。 記事では、私と同じデータ分析部所属の大原が9/20・21の2日間開催されたエンジニア職向けサマーインターンシップに参加したので、 その模様及びそこから得た学びを共有したいと思います! Gunosy Summer Internship 2016とは エンジニア職向けサマーインターンシップの様子 Gunosyに関する講義 Gunosyの開発組織・技術に関する講義 ハッカソン インターンシップでの気づき(荻原) データ・機械学習アルゴリズム理解の重要性 「切り捨てるもの」を明確にすること 状況に応じて作業方針をダイナミックに変更する決断力の大切さ インターンシップでの気づき(大原) 機械学習のモデルに対する理解と経験が必要 評価手法について理解すること 終わりに Gun

    データ分析について学んだこと by サマーインターンシップ - Gunosyデータ分析ブログ
    advblog
    advblog 2016/10/20
  • 【Slack×Re:dash】リアルタイムKPI通知をコード0行で実現する - Gunosyデータ分析ブログ

    データ分析部で部長をしている@cou_zです。最近はLIBROのマイクロフォンコントローラーをよく聴いています。 Gunosyにおけるプロダクト改善は、データ可視化による現状把握から始まると考えています。 ログを収集して、ダッシュボードでKPI(重要業績指標)を可視化することは、今では当たり前のことになっていると思います。深夜バッチでKPIを集計して、翌朝に確認することは重要ですが、KPIをリアルタイムに知ることによって、現状把握がさらに進むことがあります。 しかし、リアルタイムにKPIを集計できたとしても、実際にそれらを確認するとは限りません。頻繁にダッシュボードを見るのはとても億劫で、次第に見なくなってしまいがちです。そこで、日常的に開いているチャットにKPIがリアルタイムに通知されると、確認の際の負担を軽減することができます。 Gunosyでは、チャットツールにSlackをダッシュボ

    【Slack×Re:dash】リアルタイムKPI通知をコード0行で実現する - Gunosyデータ分析ブログ
    advblog
    advblog 2016/08/25
  • Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ

    はじめに こんにちは、データ分析部の久保 (@beatinaniwa) です。 今日は義務教育で教えても良いんじゃないかとよく思うWebクロールとスクレイピングの話です。 私自身、日頃は社内に蓄積されるニュース記事データや行動ログをSQLPythonを使って取得・分析することが多いですが、Web上にある外部データを使って分析に役立てたいというシーンはままあります。 単独のページをガリガリスクレイピングしたいときなどは、下の1年半ぐらい前の会社アドベントカレンダーに書いたような方法でやっていけば良いんですが、いくつもの階層にわかれたニュースポータルサイトやグルメポータルサイトを効率よくクロール+スクレイピングするためには、それに適したツールを使うのがすごく便利です。 qiita.com そこでPythonスクレイピングフレームワークScrapyの登場です。 Scrapy | A Fast

    Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ
    advblog
    advblog 2016/08/18
  • いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ

    アライアンス事業開発部の大曽根(@dr_paradi)です。 ニュースパスというアプリの分析と開発を行っております。 今回は機械学習の評価関数のお話をします。 内容は、【FiNC×プレイド】Machine Learning Meetup #1 - connpassで発表したものになります。 発表資料 いまさら聞けない機械学習の評価指標 from 圭輔 大曽根 www.slideshare.net 機械学習における評価 現在は機械学習ライブラリが充実しており、また、Webサービスの普及により学習に必要なデータの獲得も以前と比較して容易になっています。 そのため、機械学習のビジネス利用への敷居が下がっています。 予測や分類といった問題を解く際には、設定した課題に対してどのモデルが最も適しているかを評価するための指標(評価関数)が必要になります。 Kaggle*1などのコンペティションではあらか

    いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ
    advblog
    advblog 2016/08/05
  • 1