タグ

ブックマーク / data.gunosy.io (9)

  • 双曲空間ではじめるレコメンデーション - Gunosyデータ分析ブログ

    はじめに こんにちは、MediaAds ML Teamに所属している飯塚(@zr_4) です。 以前書いたブログ*1をベースに変更を加えた論文がRecSys 2019 *2 に通りました(ヤッター)。 埋め込みベースの推薦は、近年最も成功を収めた推薦手法の一つです。 埋め込みベースの推薦を行っている多くの大企業では、精度良くアイテムやユーザーを表現するため、数百次元のベクトルを使用しています。それによって、莫大な計算リソースを日々消費していることと思います。またリアルタイムにベクトルの演算を行うために検索システムを自作している企業も少なくないと思います*3。負荷の大きさから、特定のロジックの実装に踏み込めないケースも多々あるかと思います。 一方で近年、埋め込みの空間に双曲空間を用いることで、階層構造、木構造、Directed Acyclic Graph (DAG) が低次元のベクトルで表現

    双曲空間ではじめるレコメンデーション - Gunosyデータ分析ブログ
    Nyoho
    Nyoho 2019/07/10
    “双曲空間での学習を推薦ドメインに適用し、定性・定量的な実験を行いました”
  • A/Bテストよりすごい?はじめてのインターリービング - Gunosyデータ分析ブログ

    はじめに こんにちは。メディアデータ分析部の飯塚(@zr_4)です。 弊社では現在、複数のニュース形式のアプリケーションを運用しており、各プロダクトでユーザーの趣向にあうような記事リストのパーソナライズを行っています。 左から:LUCRA、ニュースパス、グノシー そのため、記事のランキングに関するA/Bテストをする機会が多々あり「少数のユーザーで高速に有力なパラメータを探したい」というニーズがありました。 今回は上記ニーズを満たすべく、グノシーの番環境に導入したインターリービングを紹介します。 インターリービングとは 概要 インターリービングは高感度なランキング評価手法です。 実験的に、10倍から100倍従来のA/Bテストよりも効率的であることが知られています。*1 従来のA/Bテストにおいて、2つのランキングリストを評価する際は、ユーザを2つの群に分け各々に別々のランキングリストを提示

    A/Bテストよりすごい?はじめてのインターリービング - Gunosyデータ分析ブログ
    Nyoho
    Nyoho 2018/10/15
  • ニュースパスを支える関連記事推薦と近似近傍探索 - Gunosyデータ分析ブログ

    こんにちは。メディアロジック分析部の米田 (@mathetake) です。 今日はGunosy社とKDDI社が共同で運営するニュースパスというニュースアプリケーションで使われている関連記事推薦のアルゴリズムについて書きたいと思います。 特に、約半年前に私が導入しKPIの改善に成功した新しいアルゴリズムと、そこでコアとなる近似近傍探索(Approximate Nearest Neighbor search)の技術について述べます。 関連記事推薦とは この記事で紹介する関連記事推薦とは、「特定のニュースに関連したニュースを推薦すること」です。 より具体的には、特定の記事をクリックした後に記事閲覧画面を下にスクロールすると登場する「おすすめ記事」の枠に対して、関連したニュースを検索して表示することを指します: このような枠が設置されている事は一般的なアプリケーションにおいてごく自然ですが、推薦シ

    ニュースパスを支える関連記事推薦と近似近傍探索 - Gunosyデータ分析ブログ
    Nyoho
    Nyoho 2018/09/28
    近似的最近傍探索
  • 【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで - Gunosyデータ分析ブログ

    こんにちは。初めまして。 データ分析部新入りのmathetake(@mathetake)と申します。 先日個人ブログでこんなエントリを書いた人です: mathetake.hatenablog.com そんなこんなでTwitter就活芸人(?)として活動(?)してましたが、これからは真面目に頑張っていこうと思います。 今日はみんな大好きベイズモデリングおいて、事後分布推定に欠かせないアルゴリズム(群)の一つである*1 マルコフ連鎖モンテカルロ法(Markov chain Monte Carlo) 通称MCMCに関するエントリです。より具体的に、 MCMCの意義(§1.)から始め、マルコフ連鎖の数学的な基礎(§2.,3.,4.)、MCMCの代表的なアルゴリズムであるMetropolis-Hastings法(§5.)、その例の1つである*2Langevin Dynamics(§6.)、そして(僕

    【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで - Gunosyデータ分析ブログ
    Nyoho
    Nyoho 2017/03/13
    MCMC = Markov chain Monte Carlo methods
  • Amazon AthenaをBigQueryと比較してみた

    こんにちは、データ分析部の阿部です。 作業中音楽は聞かない派ですが、ホワイトノイズを聞いていると集中できるという噂を聞いたことがあるので少し気になっています。 今回は、re:Invent2016で発表されたばかりのAthenaを紹介します。 Athenaとは データの準備 テーブル作成 速度測定 まとめ Athenaとは 日、AWSのre:Invent中で、RedshiftやEMRに続くビッグデータサービスとして、Athenaというサービスがリリースされました。 Athenaは、S3上のデータ(CSV, JSON, その他フラットファイル)に対して、インタラクティブにSQLを実行することができます。 RedshiftやEMRに比べて、クラスタの構築や運用を必要とせず、シンプルにクエリを実行できるというメリットがあります。 課金形態も、クエリ&読み込んだデータ量に応じて課金という点で、Go

    Amazon AthenaをBigQueryと比較してみた
    Nyoho
    Nyoho 2016/12/01
    早くて素晴らしいですね
  • Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ

    はじめに こんにちは、データ分析部の久保 (@beatinaniwa) です。 今日は義務教育で教えても良いんじゃないかとよく思うWebクロールとスクレイピングの話です。 私自身、日頃は社内に蓄積されるニュース記事データや行動ログをSQLPythonを使って取得・分析することが多いですが、Web上にある外部データを使って分析に役立てたいというシーンはままあります。 単独のページをガリガリスクレイピングしたいときなどは、下の1年半ぐらい前の会社アドベントカレンダーに書いたような方法でやっていけば良いんですが、いくつもの階層にわかれたニュースポータルサイトやグルメポータルサイトを効率よくクロール+スクレイピングするためには、それに適したツールを使うのがすごく便利です。 qiita.com そこでPythonスクレイピングフレームワークScrapyの登場です。 Scrapy | A Fast

    Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ
    Nyoho
    Nyoho 2016/11/21
  • NLP若手の会 (YANS 2016) に参加 & スポンサーしました - Gunosyデータ分析ブログ

    はじめまして。データ分析部の大原です。最近家での作業中は、「雨 強め」などの自然音を聞いています。歌詞も無いので音楽に惑わされることなくリラックスして作業できるので良い感じです。 さて、少し前の事になりますが、8月28日(日)〜8月30日(火)にNLP若手の会 (YANS)に参加しました! YANSとは YANSとはYoung Researcher Association for NLP Studiesの頭文字を取ったもので、自然言語処理関連の若手研究者・若手技術者のアクティビティを高めることを目的としたコミュニティで、2006年から毎年この時期に開催されています。 NLP関連の研究をしている多くの大学から、または業務でNLP関連の技術を活用している企業の方が多く集まり、互いに自分の研究の紹介・意見の交換などをでき、有意義な時間を過ごせます。 今年の開催地は、和歌山県白浜で、海沿いで非常に

    NLP若手の会 (YANS 2016) に参加 & スポンサーしました - Gunosyデータ分析ブログ
    Nyoho
    Nyoho 2016/09/13
  • 海外の有名IT企業のABテストブログまとめ - Gunosyデータ分析ブログ

    データ分析部の @ij_spitz です。 普段の業務では主にABテストを用いたプロダクト改善、ユーザーの行動分析などを行っています。 今日はタイトルにもある通り、プロダクト改善をするためにABテストを始めてみたいけど何をすればいいのかわからない、実際にABテストをやってみたけど当にこれで定量的な評価ができているのか心配、新しくABテストを自動で集計・評価できる基盤を作りたい、という時に参考にしたいブログを紹介します。 海外にはTwitterやLinkedInなどを始めとして、自社のABテストの基盤やノウハウをブログで公開している企業が数多くあります。 もちろんブログの中身は英語ですが、頑張って読んでみると日ではあまり知られていないことが書いてあったりするので、ぜひ一度読んでみることをおすすめします。 Twitter Engineering | Twitter Blogs Twitte

    海外の有名IT企業のABテストブログまとめ - Gunosyデータ分析ブログ
    Nyoho
    Nyoho 2016/08/09
    Links
  • いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ

    アライアンス事業開発部の大曽根(@dr_paradi)です。 ニュースパスというアプリの分析と開発を行っております。 今回は機械学習の評価関数のお話をします。 内容は、【FiNC×プレイド】Machine Learning Meetup #1 - connpassで発表したものになります。 発表資料 いまさら聞けない機械学習の評価指標 from 圭輔 大曽根 www.slideshare.net 機械学習における評価 現在は機械学習ライブラリが充実しており、また、Webサービスの普及により学習に必要なデータの獲得も以前と比較して容易になっています。 そのため、機械学習のビジネス利用への敷居が下がっています。 予測や分類といった問題を解く際には、設定した課題に対してどのモデルが最も適しているかを評価するための指標(評価関数)が必要になります。 Kaggle*1などのコンペティションではあらか

    いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ
  • 1