タグ

ブックマーク / data.gunosy.io (42)

  • Facebookの予測ライブラリProphetを用いたトレンド抽出と変化点検知 - Gunosyデータ分析ブログ

    Gunosyデータ分析部アルバイトの五十嵐です。 Gunosyには大規模なKPIの時系列データがあります。 今回はKPIの時系列分析を行なった際に得た知見についてまとめたいと思います。 具体的にはFacebookが開発した時系列予測ツール Prophetを用いて、KPIのトレンド分析を行いました。 時系列予測について Prophetについて 実装例 モデルの適用 将来のアクセス数予測 トレンド性と周期性の抽出 変化点抽出 Slackを利用した自動化 まとめ 時系列予測について 以前、 KPIのトレンド抽出について以下のブログで紹介しました。 data.gunosy.io ここでは時系列データをトレンド成分と季節成分に分解し、トレンドの把握を容易にする分析を行なっていました。 KPIのトレンドを知ることでサービスの状態を把握することが目的でした。 今回はこの分析をさらに進め、トレンドの変化点

    Facebookの予測ライブラリProphetを用いたトレンド抽出と変化点検知 - Gunosyデータ分析ブログ
  • アプリログの自動異常検知を試してみた~密度比による異常検知入門~ - Gunosyデータ分析ブログ

    Gunosyデータ分析部アルバイトの鈴木です。今回は密度比を利用したバージョンリリースにおける異常検知について学んだことをまとめたいと思います。 やりたいこと 超長期的にやりたいこと 密度比を用いた異常検知のイメージ ダミーデータでの実装例1 今回試したやり方 今後試していくやり方 ダミーデータでの実装例2 密度比の平均二乗誤差を用いる場合 直接密度比推定する場合 参考資料 やりたいこと ニュースパス(Gunosyの提供するプロダクトの一つ)をバージョンアップした時に、もし異常があればユーザーアクションログからその兆候を見つけてslackなどに通知できるようにすることが目標です。 (QA項目以外でのログ欠損やアップデートによる予期せぬユーザ行動の検知をするためです。) 現在Gunosyでは、バージョンアップ時に異常がないかどうか調査するために人手を割いています。しかし、もし自動で異常を確実

    アプリログの自動異常検知を試してみた~密度比による異常検知入門~ - Gunosyデータ分析ブログ
  • データ分析部が開発・運用するバッチ アプリケーション事情 - Gunosyデータ分析ブログ

    はじめに こんにちは、データ分析部の森です。 この記事ではGunosyデータ分析部がどのような視点に基づいてバッチアプリケーション(以下、バッチ)を開発・運用しているかしているのかを紹介します。 クライアントアプリ開発やAPI開発と比較してバッチ開発のノウハウなどをまとめたWeb記事の数は少なく感じます。 また、言語に関わらずWebフレームワークの数に対して、バッチフレームワークの数も少数です。 このような点を踏まえると一般的には難易度の高くない(ノウハウを必要としない、フレームワークに頼る必要のない)、もしくはニーズがあまりないなどの印象があるのかもしれません。 一方で我々は日々バッチ開発を行い、数多くの地雷を踏んできました。 これらの経験を踏まえてどのような点に気をつけているのかについて共有します。 理想的には多くの方の経験を共有して、建設的な議論に発展するとうれしいです。 はじめに

    データ分析部が開発・運用するバッチ アプリケーション事情 - Gunosyデータ分析ブログ
  • エンジニア向けデータ分析サマーインターンシップに参加して - Gunosyデータ分析ブログ

    こんにちは、来年度からデータ分析部に所属する山田です。 今はまだ学生です。 一足先にGunosy Summer Internship 2017 データ分析コースのメンターアルバイトとして参加したので、その様子や知見を記していきたいと思います! Gunosy Summer Internship 2017 について 「データ分析コース」の様子 講義 ランチ・新卒トーク ワーク ベンチマークシステム 作業環境 結果発表 インターンでの気付き(メンター山田) インターン参加者の感想 第一回 京都大学大学院 澤田さん 手法について 限られた時間で形にすること 教訓みたいなもの 東京大学 原田さん 用いた手法について 参加してみての感想 東京大学 丹羽さん 用いた手法、時間の使い方 学びと感想 筑波大学 小林さん 用いた手法について 感想 インターン参加者の感想 第二回 大阪大学 中村さん 分析に用い

    エンジニア向けデータ分析サマーインターンシップに参加して - Gunosyデータ分析ブログ
  • テキストアナリティクスシンポジウムにて招待講演/研究発表を行いました - Gunosyデータ分析ブログ

    データ分析部研究開発チームの関です。 最近は10月のエビ中とBishの対バンイベントに向けて双方の楽曲の予習を行っています。 この度データ分析部では9月7日, 8日に成蹊大学で行われた第11回テキストアナリティクスシンポジウムに参加し, 7日は招待講演とパネルディスカッション、8日には2件の研究発表を行いました。 テキストアナリティクスシンポジウムとは テキストアナリティクスシンポジウムは電子情報通信学会の言語理解とコミュニケーション研究会(NLC研)が主催するシンポジウムで、 自然言語処理の結果をどのように分析・解釈・活用するかという点に着目した研究会です。 第10回まではテキストマイニングシンポジウムと呼ばれていましたが、業界全体のトレンドを考慮し、今回からテキストアナリティクスシンポジウムと改称されました。 参加者も学生や研究者だけでなく、企業の実務担当者が多かった印象です。 また自

    テキストアナリティクスシンポジウムにて招待講演/研究発表を行いました - Gunosyデータ分析ブログ
  • Gunosy における AWS 上での自然言語処理・機械学習の活用事例: AWS Summit dev day 2017 - Gunosyデータ分析ブログ

    はじめに こんにちは。Gunosyデータ分析部の大曽根(@dr_paradi) です。最近はJOHN TROPEA BAND featuring STEVE GADD etcのライブを観に行きました。 業務では主にニュースパスのユーザ行動分析、記事配信アルゴリズム開発全般を担当しています。 先日開催されました、AWS Dev Day Tokyo 2017において、「Gunosy における AWS 上での自然言語処理・機械学習の活用事例」というタイトルで発表してきましたので、その内容について簡単ですが書きたいと思います。 はじめに 発表内容 記事分類 属性推定 + スコアリング 属性推定 スコアリング 効果測定 (ABテスト) おわりに 発表内容 私が発表した内容は下記のスライドにまとまっています。弊社が提供するサービスのニュースドメインのもの(グノシー、ニュースパス)における処理の流れを大

    Gunosy における AWS 上での自然言語処理・機械学習の活用事例: AWS Summit dev day 2017 - Gunosyデータ分析ブログ
  • プロダクト改善のためにウォッチしておくべき7つの指標 - Gunosyデータ分析ブログ

    データ分析部でグノシーというニュースアプリのプロダクト改善を担当している @ij_spitz です。 今回はプロダクト改善のためにウォッチしておくべき7つの指標をSQLで算出してみます。 Gunosyではこれらの指標を、プロダクトに異常があった時に検知するため、また施策の効果検証といった主に2つの目的で使用しています。 簡潔にするため、ユーザーとログインの2つのテーブルを使った算出できる指標のみを対象としています。 また、これらの指標をどうやってプロダクト改善に役立てているのかということも少しではありますが、合わせて書いていきたいと思います。 DAU WAU(MAU) HAU 積み上げHAU 1ユーザーあたりのログイン回数 登録N日後継続率 登録日別N日後継続率 前提 今回のブログで紹介するSQLAmazon Redshift上で動くSQLなので、MySQLGoogle BigQuer

    プロダクト改善のためにウォッチしておくべき7つの指標 - Gunosyデータ分析ブログ
  • Gunosyデータマイニング研究会 119回, 120回を開催しました - Gunosyデータ分析ブログ

    こんにちは。グノシーデータ分析部の関です。 最近はMaison book girlのkarmaをよく聞いています。 今回の投稿では4/24に開催したGunosy DM #119と5/10に開催したGunosy DM #120について紹介します。 これまで同様、これからの強化学習の輪読と論文紹介を行っております。 書籍輪読 - これからの強化学習 #119では2.1節を関が紹介し、 #120では2.2, 2.3節を関が 2.4節をatlimited様に紹介いただきました 1章では価値関数が離散的な状況を想定していましたが、 2.1節では価値関数が連続的であることを考慮し、その中で関数を近似する方法を検討しています。 通常の機械学習では、入力がi.i.dであることを仮定していますが、 強化学習では、得られるデータが方策に依存するので、マルコフ性を持ってしまうため、収束が保証されません。 そのな

    Gunosyデータマイニング研究会 119回, 120回を開催しました - Gunosyデータ分析ブログ
  • Pandasによる実践データ分析入門 - Gunosyデータ分析ブログ

    こんにちは。データ分析部のオギワラです。最近は「NANIMONO (feat.米津玄師)」をよく聞いています。 今回はPythonデータ分析ライブラリであるPandasについて、実践的なテクニックを「データ処理」「データ集計(Group By)」「時系列処理」の3カテゴリに分けてご紹介していきます。 Pandasに関する基的な内容については、前エントリーで既に紹介されているので、是非こちらもご一読して頂けると幸いです。 data.gunosy.io データ処理 データの取り出し(query) 条件文に基づくデータ処理の適用(where) 各行への関数の適用(apply) データ集計(Group By) カラム毎に異なる集計を適用する(agg) 最大・最小値である行を取り出す(first) 標準化や正規化処理を適用する(transform) 時系列処理 時間の丸め処理(round) 時系

    Pandasによる実践データ分析入門 - Gunosyデータ分析ブログ
  • 【これからの強化学習: 輪読会】Gunosy データマイニング研究会を実施しました - Gunosyデータ分析ブログ

    gunosy-dm.connpass.com こんにちは、データ分析部の阿部です。 今回は、先日開催したデータマイニング研究会という勉強会についてご紹介します。 データマイニング研究会とは 勉強会では書籍の輪読と論文紹介を行い、データマイニングに関する基礎知識の向上及び、先端事例の共有・議論を行うことを目的としています。 2週間に1回のペースで開催されており、社外にも公開し広く知見を共有することを目指しています。 Gunosy創業時から取り組んでいるためこの手の勉強会としては歴史は長く(?)、今回で117回目になりました。 これからの強化学習 今回からは「これからの強化学習」を進めていて、1.1と1.2を終わらせました。 内容は強化学習の基礎的なところで、強化学習の構成要素が中心となっています。 これからの強化学習 作者: 牧野貴樹,澁谷長史,白川真一,浅田稔,麻生英樹,荒井幸代,飯間等

    【これからの強化学習: 輪読会】Gunosy データマイニング研究会を実施しました - Gunosyデータ分析ブログ
  • 【これからの強化学習】 Gunosy データマイニング研究会 #118 を実施しました - Gunosyデータ分析ブログ

    gunosy-dm.connpass.com こんにちは。グノシー開発部のアルシャマンです。最近は、KID FRESINOのSalve feat. JJJをよく聴いています。 今日は4/12(水)に開催したGunosy DM #118について紹介します。前回に引き続きこれからの強化学習の1.3~1.5節の輪読と、論文紹介を行いました。 Gunosy DMとこれからの強化学習については、以下のブログ記事で紹介しています。 data.gunosy.io 書籍輪読(これからの強化学習) データ分析部の大曽根と吉田からそれぞれ1.3~1.4節と1.5節についての発表がありました。 1.3節では、MDP(マルコフ決定過程)における価値関数の表現と、それを推定するアルゴリズムについて学びました。具体的には、ある方策πのもとでの行動価値関数について成立する再帰式であるベルマン方程式とSarsaという学習

    【これからの強化学習】 Gunosy データマイニング研究会 #118 を実施しました - Gunosyデータ分析ブログ
  • 【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで - Gunosyデータ分析ブログ

    こんにちは。初めまして。 データ分析部新入りのmathetake(@mathetake)と申します。 先日個人ブログでこんなエントリを書いた人です: mathetake.hatenablog.com そんなこんなでTwitter就活芸人(?)として活動(?)してましたが、これからは真面目に頑張っていこうと思います。 今日はみんな大好きベイズモデリングおいて、事後分布推定に欠かせないアルゴリズム(群)の一つである*1 マルコフ連鎖モンテカルロ法(Markov chain Monte Carlo) 通称MCMCに関するエントリです。より具体的に、 MCMCの意義(§1.)から始め、マルコフ連鎖の数学的な基礎(§2.,3.,4.)、MCMCの代表的なアルゴリズムであるMetropolis-Hastings法(§5.)、その例の1つである*2Langevin Dynamics(§6.)、そして(僕

    【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで - Gunosyデータ分析ブログ
  • 世界を代表する8人の旬なトップ機械学習研究者たち (2017年上半期版) - Gunosyデータ分析ブログ

    データ分析部の久保です。 最近行ったライブはAimerのAcoustic Live Tour 2017です。 早いもので2017年も3月になりましたが、機械学習分野は相変わらずとてもホットな分野です。 去年はAI人工知能という言葉がディープラーニングとともにバズワードになり、その傾向は尚も続いています。 その流行の元となったのが機械学習なわけですが、今その最先端ではどういう人がどのような研究をしているのかをかなりざっくりと見ていきたいと思います。 調査方法は2013年に同様のことを行ったとき qiita.com と同じく、NIPSとICMLという機械学習の代表的国際会議の過去3年分を対象とし、1st authorの重要度をそれ以外の著者よりも重くしてスコアづけしました。具体的には複数人の著者がいる場合は1st authorを0.8として、残りの0.2を他の著者に分配、1人の場合は1として

    世界を代表する8人の旬なトップ機械学習研究者たち (2017年上半期版) - Gunosyデータ分析ブログ
  • さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門 - Gunosyデータ分析ブログ

    久しぶりの投稿になってしまいましたが、ニュースパス(現在CM放映中!!)開発部の大曽根です。 作業中はGrover Washington Jr のWinelightを聴くと元気が出ます。参加ミュージシャンが素晴らしいですね。 なぜ時系列分析をするのか 季節調整 実演 おまけ: 時間別に見てみる まとめ 今後 なぜ時系列分析をするのか 数値を非常に重視している弊社では、数値を知るためのツールとしてRedashやChartioおよびSlackへの通知を活用しています。現在の数値を理解する上では、長期のトレンド(指標が下がっているのか、上がっているのか)を知ることが重要です。しかし、日々変化するデータ(特に売上やKPIと言われる指標)は、ばらつきも大きく、変化を適切に捉えることが難しいこともあります。 特にSlackなどへの通知を行っていると、日々の変化に囚われがちです。例えば、弊社ではニュース

    さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門 - Gunosyデータ分析ブログ
  • 【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ

    こんにちは、データ分析部でバイトをしている子田(id:woody_kawagoe)です。 ニュースパスのログを集計して分析するといった業務を行っています。Gunosyで分析に利用しているツールとしては主にJupyter, Pandas, matplotlibがあります。 この組み合わせは非常に相性が良く、研究でも役立つと思います。 そこで今回のブログではデータ分析に役立つtipsや学んだことをまとめます。 Jupyter Pandas matplotlab データ分析の基的な流れ 参考資料 Jupyter jupyter.org ブラウザ上で利用できる開発環境です。 対話型で、作成したスクリプトと出力結果の対応関係が非常に見やすいです。 スクリプトでprint文をかかなくても最終行に変数おけば表示してくれます。 またgithub上にJupyterで作成できるipynbファイルを置くと他の

    【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ
  • 5分でわかる!BigQuery Tips集 - Gunosyデータ分析ブログ

    こんにちは。データ分析部の阿部です。 今回はBigQueryについてです。 GunosyではもともとRedshiftで運用していましたが、 クエリによっては時間がかかり処理しきれない 同時にクエリを投げると詰まる などの課題を解決するためにBigQueryを一部で導入しました。 今回はBigQuery導入するときのTipsを紹介したいと思います。 Standard SQL テーブルワイルドカード関数 Partitioned Table Re:dashに接続する方法 Google Apps Script を使ってクエリ結果をSlackに通知する方法 まとめ Standard SQL 現時点でベータ版ですが、ついにBigQueryでも標準SQLを使ってクエリを書けるようになりました。 これまでの SQL (Legacy SQL) は癖が強く、 distinct を使って重複を取り除くこともでき

    5分でわかる!BigQuery Tips集 - Gunosyデータ分析ブログ
  • Sparkで利用できるDeep Learningフレームワークまとめ - Gunosyデータ分析ブログ

    こんにちは、Gunosyデータ分析部に所属している森です。 主な担当業務は記事配信アルゴリズムの改善、ログ基盤運用です。 最近良く聞く音楽はOne Direction - Live While We're Youngです。 記事では、Sparkで利用できるDeep Learningフレームワークをまとめました。 GunosyではChainerで畳み込みニューラルネットワークを応用し、ユーザーのデモグラフィック推定を行っています。 WebDB Forum 2016 gunosy from Hiroaki Kudo Chainer以外にも多数のDeep LearningフレームワークがPythonを中心に数多く存在します。 TensorFlow, Keras, Caffe, Theanoなどなど。どのフレームワークが優れているかという回答は状況に応じて変わりますが、Pythonを使用する大

    Sparkで利用できるDeep Learningフレームワークまとめ - Gunosyデータ分析ブログ
  • NLP若手の会 (YANS 2016) に参加 & スポンサーしました - Gunosyデータ分析ブログ

    はじめまして。データ分析部の大原です。最近家での作業中は、「雨 強め」などの自然音を聞いています。歌詞も無いので音楽に惑わされることなくリラックスして作業できるので良い感じです。 さて、少し前の事になりますが、8月28日(日)〜8月30日(火)にNLP若手の会 (YANS)に参加しました! YANSとは YANSとはYoung Researcher Association for NLP Studiesの頭文字を取ったもので、自然言語処理関連の若手研究者・若手技術者のアクティビティを高めることを目的としたコミュニティで、2006年から毎年この時期に開催されています。 NLP関連の研究をしている多くの大学から、または業務でNLP関連の技術を活用している企業の方が多く集まり、互いに自分の研究の紹介・意見の交換などをでき、有意義な時間を過ごせます。 今年の開催地は、和歌山県白浜で、海沿いで非常に

    NLP若手の会 (YANS 2016) に参加 & スポンサーしました - Gunosyデータ分析ブログ
  • データ分析部ロジック共有会を実施しました - Deep Learning を用いた年齢推定の精度改善について - Gunosyデータ分析ブログ

    こんちくわ,Gunosyデータ分析部の@hmjです. 最近よく聞く音楽GOING UNDER GROUND の さえないブルー です. 今回は,先日開催したデータ分析部ロジック共有会という社内向けの勉強会についてご紹介します. 1. データ分析部ロジック共有会とは データ分析部では,Gunosyの記事配信のロジックを改善したり,KPIをみてデータ分析などを主に行っています. 業務内容や組織体制などは,下記をご覧ください. seleck.cc あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT from Hiroaki Kudo www.slideshare.net データ分析部ロジック共有会とは,そんな私たちデータ分析部で日々行っているロジック改善で,どういったことをしているかなどを 社内の人たちに知ってもらうための勉強会です.

    データ分析部ロジック共有会を実施しました - Deep Learning を用いた年齢推定の精度改善について - Gunosyデータ分析ブログ
  • Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ

    はじめに こんにちは、データ分析部の久保 (@beatinaniwa) です。 今日は義務教育で教えても良いんじゃないかとよく思うWebクロールとスクレイピングの話です。 私自身、日頃は社内に蓄積されるニュース記事データや行動ログをSQLPythonを使って取得・分析することが多いですが、Web上にある外部データを使って分析に役立てたいというシーンはままあります。 単独のページをガリガリスクレイピングしたいときなどは、下の1年半ぐらい前の会社アドベントカレンダーに書いたような方法でやっていけば良いんですが、いくつもの階層にわかれたニュースポータルサイトやグルメポータルサイトを効率よくクロール+スクレイピングするためには、それに適したツールを使うのがすごく便利です。 qiita.com そこでPythonスクレイピングフレームワークScrapyの登場です。 Scrapy | A Fast

    Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ