タグ

ブックマーク / data.gunosy.io (21)

  • 最近のニュース記事推薦手法まとめ 〜固有表現の利用から多様性の向上まで〜 - Gunosyデータ分析ブログ

    はじめに 他ドメインと比較したニュース記事推薦の特徴 1. ライフサイクルの短さがもたらすコールドスタート問題 2. 深い言語理解の必要性 3. 明示的なフィードバックの利用の難しさ トピック別ニュース記事推薦手法 記事の人気度合い(popularity)の考慮 概要 既存研究 固有表現(Named Entity)の明示的な考慮 概要 知識グラフと知識グラフ埋め込み 既存研究 リッチな言語表現の利用 概要 既存研究 明示的なユーザーフィードバック・post click指標の利用 概要 既存研究 ユーザーの興味をより正確に捉えるアーキテクチャ 概要 既存研究 今後のチャレンジ おわりに はじめに こんにちは、Gunosy Tech Lab (GTL) Media ML チームの大竹です。Gunosyでは「情報を世界中の人に最適に届ける」というミッションのもと、グノシー・ニュースパス・LUCR

    最近のニュース記事推薦手法まとめ 〜固有表現の利用から多様性の向上まで〜 - Gunosyデータ分析ブログ
  • 2019年のGunosy研究開発チームの振り返りとこれから - Gunosyデータ分析ブログ

    はじめに こんにちは、研究開発チームの関です。 いつのまにやら年末感が漂ってきましたね。今年もクリスマスは赤レンガ倉庫でカップルたちの中アイドルライブを見て過ごしました。*1 年越しはCDJででんぱ組と年越しを迎えるので、クリスマスも年越しも推しと過ごせて幸せです。 さて、この記事はGunosy Advent Calendar 2019の21日目の記事です。*2 この記事では研究開発チームのこの1年の振り返りと、今後について書いて行こうと思います。 自分なりの整理や、社内広報の役割も兼ねています。 はじめに 2018年までの研究開発 2019年の主な活動 業績 学会・研究会への参加 参加した国際学会(いずれも発表参加) 参加した国内学会・研究会 スポンサーした学会 参加レポート 大学での講義 ウェブ工学とビジネスモデル ウェブサービスにおけるデータ分析機械学習 2019年の振り返り よか

    2019年のGunosy研究開発チームの振り返りとこれから - Gunosyデータ分析ブログ
  • ニュースパスを支える関連記事推薦と近似近傍探索 - Gunosyデータ分析ブログ

    こんにちは。メディアロジック分析部の米田 (@mathetake) です。 今日はGunosy社とKDDI社が共同で運営するニュースパスというニュースアプリケーションで使われている関連記事推薦のアルゴリズムについて書きたいと思います。 特に、約半年前に私が導入しKPIの改善に成功した新しいアルゴリズムと、そこでコアとなる近似近傍探索(Approximate Nearest Neighbor search)の技術について述べます。 関連記事推薦とは この記事で紹介する関連記事推薦とは、「特定のニュースに関連したニュースを推薦すること」です。 より具体的には、特定の記事をクリックした後に記事閲覧画面を下にスクロールすると登場する「おすすめ記事」の枠に対して、関連したニュースを検索して表示することを指します: このような枠が設置されている事は一般的なアプリケーションにおいてごく自然ですが、推薦シ

    ニュースパスを支える関連記事推薦と近似近傍探索 - Gunosyデータ分析ブログ
  • アプリログの自動異常検知を試してみた~密度比による異常検知入門~ - Gunosyデータ分析ブログ

    Gunosyデータ分析部アルバイトの鈴木です。今回は密度比を利用したバージョンリリースにおける異常検知について学んだことをまとめたいと思います。 やりたいこと 超長期的にやりたいこと 密度比を用いた異常検知のイメージ ダミーデータでの実装例1 今回試したやり方 今後試していくやり方 ダミーデータでの実装例2 密度比の平均二乗誤差を用いる場合 直接密度比推定する場合 参考資料 やりたいこと ニュースパス(Gunosyの提供するプロダクトの一つ)をバージョンアップした時に、もし異常があればユーザーアクションログからその兆候を見つけてslackなどに通知できるようにすることが目標です。 (QA項目以外でのログ欠損やアップデートによる予期せぬユーザ行動の検知をするためです。) 現在Gunosyでは、バージョンアップ時に異常がないかどうか調査するために人手を割いています。しかし、もし自動で異常を確実

    アプリログの自動異常検知を試してみた~密度比による異常検知入門~ - Gunosyデータ分析ブログ
  • データ分析部が開発・運用するバッチ アプリケーション事情 - Gunosyデータ分析ブログ

    はじめに こんにちは、データ分析部の森です。 この記事ではGunosyデータ分析部がどのような視点に基づいてバッチアプリケーション(以下、バッチ)を開発・運用しているかしているのかを紹介します。 クライアントアプリ開発やAPI開発と比較してバッチ開発のノウハウなどをまとめたWeb記事の数は少なく感じます。 また、言語に関わらずWebフレームワークの数に対して、バッチフレームワークの数も少数です。 このような点を踏まえると一般的には難易度の高くない(ノウハウを必要としない、フレームワークに頼る必要のない)、もしくはニーズがあまりないなどの印象があるのかもしれません。 一方で我々は日々バッチ開発を行い、数多くの地雷を踏んできました。 これらの経験を踏まえてどのような点に気をつけているのかについて共有します。 理想的には多くの方の経験を共有して、建設的な議論に発展するとうれしいです。 はじめに

    データ分析部が開発・運用するバッチ アプリケーション事情 - Gunosyデータ分析ブログ
  • プロダクト改善のためにウォッチしておくべき7つの指標 - Gunosyデータ分析ブログ

    データ分析部でグノシーというニュースアプリのプロダクト改善を担当している @ij_spitz です。 今回はプロダクト改善のためにウォッチしておくべき7つの指標をSQLで算出してみます。 Gunosyではこれらの指標を、プロダクトに異常があった時に検知するため、また施策の効果検証といった主に2つの目的で使用しています。 簡潔にするため、ユーザーとログインの2つのテーブルを使った算出できる指標のみを対象としています。 また、これらの指標をどうやってプロダクト改善に役立てているのかということも少しではありますが、合わせて書いていきたいと思います。 DAU WAU(MAU) HAU 積み上げHAU 1ユーザーあたりのログイン回数 登録N日後継続率 登録日別N日後継続率 前提 今回のブログで紹介するSQLAmazon Redshift上で動くSQLなので、MySQLGoogle BigQuer

    プロダクト改善のためにウォッチしておくべき7つの指標 - Gunosyデータ分析ブログ
  • 「これからの強化学習」1章の内容で三目並べ - Gunosyデータ分析ブログ

    こんちくわ。データ分析部兼サウンドエンジニアの大曽根です。最近は吾光良&The Swingin Buppersのライブに行きました。 今回は4/12に開催した「これからの強化学習」の輪読会の1.3節で紹介した価値反復法のアルゴリズムを、教科書とは異なる例で実装してみました。 開催報告については下記のブログをご覧ください。 data.gunosy.io メジャーなゲームである三目並べを、1.3節にて紹介されているSarsaを用いて学習しました。 教科書とは別の例で実装することで少しでも理解が深まればと思います。 価値反復に基づくアルゴリズム マルコフ決定過程において価値関数を特定の更新式に従って更新する手法です。(今回はSarsaで試しました。) 発表の際には、tの状態の更新式に次の状態 t+1が含まれているところなどがわかりづらいとの質問を受けました。 価値反復に基づくアルゴリズムでは過

    「これからの強化学習」1章の内容で三目並べ - Gunosyデータ分析ブログ
  • Gunosyデータマイニング研究会 119回, 120回を開催しました - Gunosyデータ分析ブログ

    こんにちは。グノシーデータ分析部の関です。 最近はMaison book girlのkarmaをよく聞いています。 今回の投稿では4/24に開催したGunosy DM #119と5/10に開催したGunosy DM #120について紹介します。 これまで同様、これからの強化学習の輪読と論文紹介を行っております。 書籍輪読 - これからの強化学習 #119では2.1節を関が紹介し、 #120では2.2, 2.3節を関が 2.4節をatlimited様に紹介いただきました 1章では価値関数が離散的な状況を想定していましたが、 2.1節では価値関数が連続的であることを考慮し、その中で関数を近似する方法を検討しています。 通常の機械学習では、入力がi.i.dであることを仮定していますが、 強化学習では、得られるデータが方策に依存するので、マルコフ性を持ってしまうため、収束が保証されません。 そのな

    Gunosyデータマイニング研究会 119回, 120回を開催しました - Gunosyデータ分析ブログ
  • Pandasによる実践データ分析入門 - Gunosyデータ分析ブログ

    こんにちは。データ分析部のオギワラです。最近は「NANIMONO (feat.米津玄師)」をよく聞いています。 今回はPythonデータ分析ライブラリであるPandasについて、実践的なテクニックを「データ処理」「データ集計(Group By)」「時系列処理」の3カテゴリに分けてご紹介していきます。 Pandasに関する基的な内容については、前エントリーで既に紹介されているので、是非こちらもご一読して頂けると幸いです。 data.gunosy.io データ処理 データの取り出し(query) 条件文に基づくデータ処理の適用(where) 各行への関数の適用(apply) データ集計(Group By) カラム毎に異なる集計を適用する(agg) 最大・最小値である行を取り出す(first) 標準化や正規化処理を適用する(transform) 時系列処理 時間の丸め処理(round) 時系

    Pandasによる実践データ分析入門 - Gunosyデータ分析ブログ
  • 【これからの強化学習】 Gunosy データマイニング研究会 #118 を実施しました - Gunosyデータ分析ブログ

    gunosy-dm.connpass.com こんにちは。グノシー開発部のアルシャマンです。最近は、KID FRESINOのSalve feat. JJJをよく聴いています。 今日は4/12(水)に開催したGunosy DM #118について紹介します。前回に引き続きこれからの強化学習の1.3~1.5節の輪読と、論文紹介を行いました。 Gunosy DMとこれからの強化学習については、以下のブログ記事で紹介しています。 data.gunosy.io 書籍輪読(これからの強化学習) データ分析部の大曽根と吉田からそれぞれ1.3~1.4節と1.5節についての発表がありました。 1.3節では、MDP(マルコフ決定過程)における価値関数の表現と、それを推定するアルゴリズムについて学びました。具体的には、ある方策πのもとでの行動価値関数について成立する再帰式であるベルマン方程式とSarsaという学習

    【これからの強化学習】 Gunosy データマイニング研究会 #118 を実施しました - Gunosyデータ分析ブログ
  • 【これからの強化学習: 輪読会】Gunosy データマイニング研究会を実施しました - Gunosyデータ分析ブログ

    gunosy-dm.connpass.com こんにちは、データ分析部の阿部です。 今回は、先日開催したデータマイニング研究会という勉強会についてご紹介します。 データマイニング研究会とは 勉強会では書籍の輪読と論文紹介を行い、データマイニングに関する基礎知識の向上及び、先端事例の共有・議論を行うことを目的としています。 2週間に1回のペースで開催されており、社外にも公開し広く知見を共有することを目指しています。 Gunosy創業時から取り組んでいるためこの手の勉強会としては歴史は長く(?)、今回で117回目になりました。 これからの強化学習 今回からは「これからの強化学習」を進めていて、1.1と1.2を終わらせました。 内容は強化学習の基礎的なところで、強化学習の構成要素が中心となっています。 これからの強化学習 作者: 牧野貴樹,澁谷長史,白川真一,浅田稔,麻生英樹,荒井幸代,飯間等

    【これからの強化学習: 輪読会】Gunosy データマイニング研究会を実施しました - Gunosyデータ分析ブログ
  • 世界を代表する8人の旬なトップ機械学習研究者たち (2017年上半期版) - Gunosyデータ分析ブログ

    データ分析部の久保です。 最近行ったライブはAimerのAcoustic Live Tour 2017です。 早いもので2017年も3月になりましたが、機械学習分野は相変わらずとてもホットな分野です。 去年はAI人工知能という言葉がディープラーニングとともにバズワードになり、その傾向は尚も続いています。 その流行の元となったのが機械学習なわけですが、今その最先端ではどういう人がどのような研究をしているのかをかなりざっくりと見ていきたいと思います。 調査方法は2013年に同様のことを行ったとき qiita.com と同じく、NIPSとICMLという機械学習の代表的国際会議の過去3年分を対象とし、1st authorの重要度をそれ以外の著者よりも重くしてスコアづけしました。具体的には複数人の著者がいる場合は1st authorを0.8として、残りの0.2を他の著者に分配、1人の場合は1として

    世界を代表する8人の旬なトップ機械学習研究者たち (2017年上半期版) - Gunosyデータ分析ブログ
  • ABテストの対象をいい感じに割り振る方法 - Gunosyデータ分析ブログ

    こんにちは、データ分析部の石塚 (@ij_spitz) です。 最近聴いている曲は久保田利伸さんのLA・LA・LA LOVE SONGです。 ロンバケ最高でした、月曜9時はOLが街から消えるというのも納得です。 Gunosyではプロダクト改善のためにABテストを用いて意思決定を行っています。 今回はタイトルにもある通り、ABテストを実現させる上で必要となる対象の割り振り方法を、Gunosyで以前使っていた従来の手法と半年ほど前に新しく導入した手法の2つをご紹介します。 いい感じってなんだよと思われるかもしれませんが、従来の手法の課題を解決するようにいい感じに割り振る方法と理解していただければと思います。 それぞれの運用上で気づいたメリット・デメリットなども合わせてご紹介します。 従来の手法 以前はユーザIDを100で割った余りを使用していました。 例えば、全ユーザの1%でテストしたいという

    ABテストの対象をいい感じに割り振る方法 - Gunosyデータ分析ブログ
  • 【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ

    こんにちは、データ分析部でバイトをしている子田(id:woody_kawagoe)です。 ニュースパスのログを集計して分析するといった業務を行っています。Gunosyで分析に利用しているツールとしては主にJupyter, Pandas, matplotlibがあります。 この組み合わせは非常に相性が良く、研究でも役立つと思います。 そこで今回のブログではデータ分析に役立つtipsや学んだことをまとめます。 Jupyter Pandas matplotlab データ分析の基的な流れ 参考資料 Jupyter jupyter.org ブラウザ上で利用できる開発環境です。 対話型で、作成したスクリプトと出力結果の対応関係が非常に見やすいです。 スクリプトでprint文をかかなくても最終行に変数おけば表示してくれます。 またgithub上にJupyterで作成できるipynbファイルを置くと他の

    【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ
  • Amazon Kinesis AnalyticsとES/Kibana4でリアルタイムダッシュボード構築 - Gunosyデータ分析ブログ

    こんにちは。開発・運用推進部の小出です。 イヤホンを噛み切られること数回、最近のBGMはもっぱら環境音です。 「耳からうどんが出ているようにしか見えない」という噂のBluetoothイヤホンが気になっています。 今回は、Amazon Kinesis AnalyticsとElasticsearch/Kibana4を利用したリアルタイムダッシュボード構築についてです。 Amazon Kinesis Analytics とは ダッシュボードを構築してみる Source StreamとMapping Query Destination ログデータを拡充する Reference DataとMapping Query Destination まとめ おまけ:AmazonES&Kibana4のダッシュボード共有 Amazon Kinesis Analytics とは Amazon Kinesis A

    Amazon Kinesis AnalyticsとES/Kibana4でリアルタイムダッシュボード構築 - Gunosyデータ分析ブログ
  • Re:dashで異なるData Sourceのクエリ結果をJOINできるようになったので試してみた - Query Results (Alpha) - Gunosyデータ分析ブログ

    こんにちは。グノシー開発部で部長をしている@cou_zです。最近はDJ RYOWのビートモクソモネェカラキキナ 2016 REMIXをよく聴いています。11/23のライブが楽しみですね。 Gunosyにおけるプロダクト改善は、データ可視化による現状把握から始まると考えています。Gunosyではデータ可視化にいくつかのツールを利用していますが、その中でも最近はRe:dashを用いることが多くなってきました。 先日、Re:dashを用いたリアルタイムKPI通知について紹介しました。 data.gunosy.io 今回は、Re:dashの新しい機能である Query Results (Alpha) Data Source を紹介します。 この機能により、複数Data Sourceのクエリ結果のJOINが可能になりました。アルバイトで分析を担当している松嶋も「ついに使えるようになったんですね!!r

    Re:dashで異なるData Sourceのクエリ結果をJOINできるようになったので試してみた - Query Results (Alpha) - Gunosyデータ分析ブログ
  • 5分でわかる!BigQuery Tips集 - Gunosyデータ分析ブログ

    こんにちは。データ分析部の阿部です。 今回はBigQueryについてです。 GunosyではもともとRedshiftで運用していましたが、 クエリによっては時間がかかり処理しきれない 同時にクエリを投げると詰まる などの課題を解決するためにBigQueryを一部で導入しました。 今回はBigQuery導入するときのTipsを紹介したいと思います。 Standard SQL テーブルワイルドカード関数 Partitioned Table Re:dashに接続する方法 Google Apps Script を使ってクエリ結果をSlackに通知する方法 まとめ Standard SQL 現時点でベータ版ですが、ついにBigQueryでも標準SQLを使ってクエリを書けるようになりました。 これまでの SQL (Legacy SQL) は癖が強く、 distinct を使って重複を取り除くこともでき

    5分でわかる!BigQuery Tips集 - Gunosyデータ分析ブログ
  • Sparkで利用できるDeep Learningフレームワークまとめ - Gunosyデータ分析ブログ

    こんにちは、Gunosyデータ分析部に所属している森です。 主な担当業務は記事配信アルゴリズムの改善、ログ基盤運用です。 最近良く聞く音楽はOne Direction - Live While We're Youngです。 記事では、Sparkで利用できるDeep Learningフレームワークをまとめました。 GunosyではChainerで畳み込みニューラルネットワークを応用し、ユーザーのデモグラフィック推定を行っています。 WebDB Forum 2016 gunosy from Hiroaki Kudo Chainer以外にも多数のDeep LearningフレームワークがPythonを中心に数多く存在します。 TensorFlow, Keras, Caffe, Theanoなどなど。どのフレームワークが優れているかという回答は状況に応じて変わりますが、Pythonを使用する大

    Sparkで利用できるDeep Learningフレームワークまとめ - Gunosyデータ分析ブログ
  • DeepLearningを応用したデモグラフィックの推定について WebDB Forum 2016 で技術報告 & スポンサーしました - Gunosyデータ分析ブログ

    こんちくわ,データ分析部の工藤です. 昨日 9月14日(水) に WebDB Forum 2016 に参加し,技術報告をしてきました. WebDB Forumとは db-event.jpn.org 2016年の今回は,慶應義塾大学 日吉*1キャンパスにて開催されました. Gunosy の発表内容 Gunosyで行っている,畳み込みニューラルネットワークを応用したユーザのデモグラフィック推定について技術報告しました. 下記がその時のスライドとなります. WebDB Forum 2016 gunosy from Hiroaki Kudo 情報レコメンデーションのセッションでの発表となり多数の方に聞いていただけました. 今回の推定の肝となっているCNNを利用しようと思った理由です. いくつかの試行錯誤を重ねて,一般的には画像認識問題に強いCNNを,自然言語処理分野での使われ方などを参考にし適用し

    DeepLearningを応用したデモグラフィックの推定について WebDB Forum 2016 で技術報告 & スポンサーしました - Gunosyデータ分析ブログ
  • Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ

    はじめに こんにちは、データ分析部の久保 (@beatinaniwa) です。 今日は義務教育で教えても良いんじゃないかとよく思うWebクロールとスクレイピングの話です。 私自身、日頃は社内に蓄積されるニュース記事データや行動ログをSQLPythonを使って取得・分析することが多いですが、Web上にある外部データを使って分析に役立てたいというシーンはままあります。 単独のページをガリガリスクレイピングしたいときなどは、下の1年半ぐらい前の会社アドベントカレンダーに書いたような方法でやっていけば良いんですが、いくつもの階層にわかれたニュースポータルサイトやグルメポータルサイトを効率よくクロール+スクレイピングするためには、それに適したツールを使うのがすごく便利です。 qiita.com そこでPythonスクレイピングフレームワークScrapyの登場です。 Scrapy | A Fast

    Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ