ブックマーク / data.gunosy.io (23)

  • データ分析部が開発・運用するバッチ アプリケーション事情 - Gunosyデータ分析ブログ

    はじめに こんにちは、データ分析部の森です。 この記事ではGunosyデータ分析部がどのような視点に基づいてバッチアプリケーション(以下、バッチ)を開発・運用しているかしているのかを紹介します。 クライアントアプリ開発やAPI開発と比較してバッチ開発のノウハウなどをまとめたWeb記事の数は少なく感じます。 また、言語に関わらずWebフレームワークの数に対して、バッチフレームワークの数も少数です。 このような点を踏まえると一般的には難易度の高くない(ノウハウを必要としない、フレームワークに頼る必要のない)、もしくはニーズがあまりないなどの印象があるのかもしれません。 一方で我々は日々バッチ開発を行い、数多くの地雷を踏んできました。 これらの経験を踏まえてどのような点に気をつけているのかについて共有します。 理想的には多くの方の経験を共有して、建設的な議論に発展するとうれしいです。 はじめに

    データ分析部が開発・運用するバッチ アプリケーション事情 - Gunosyデータ分析ブログ
    odan_703
    odan_703 2017/10/12
  • テキストアナリティクスシンポジウムにて招待講演/研究発表を行いました - Gunosyデータ分析ブログ

    データ分析部研究開発チームの関です。 最近は10月のエビ中とBishの対バンイベントに向けて双方の楽曲の予習を行っています。 この度データ分析部では9月7日, 8日に成蹊大学で行われた第11回テキストアナリティクスシンポジウムに参加し, 7日は招待講演とパネルディスカッション、8日には2件の研究発表を行いました。 テキストアナリティクスシンポジウムとは テキストアナリティクスシンポジウムは電子情報通信学会の言語理解とコミュニケーション研究会(NLC研)が主催するシンポジウムで、 自然言語処理の結果をどのように分析・解釈・活用するかという点に着目した研究会です。 第10回まではテキストマイニングシンポジウムと呼ばれていましたが、業界全体のトレンドを考慮し、今回からテキストアナリティクスシンポジウムと改称されました。 参加者も学生や研究者だけでなく、企業の実務担当者が多かった印象です。 また自

    テキストアナリティクスシンポジウムにて招待講演/研究発表を行いました - Gunosyデータ分析ブログ
    odan_703
    odan_703 2017/09/21
  • 【Slack×Re:dash×SpreadSheet】らくらくリアルタイムKPI通知 - Gunosyデータ分析ブログ

    こんにちは、データ分析部のクボタです。最近はアイドルではsora tob sakanaの『ribbon』とアイドルネッサンスの『前髪』と東京女子流の『鼓動の秘密』を良く聴いています。来年のTIFと@jamが楽しみですね。 www.youtube.com www.youtube.com www.youtube.com 現在Gunosyでは様々なプロダクトを運営・開発していますが、施策等における意思決定においてデータを非常に重要な指標として扱っています。そのため、日常より分析部以外のメンバーも含めたダッシュボードやSlackのリアルタイム通知によるプロダクトの現状把握の場を大事にしています。 GunosyがKDDI株式会社と共同で提供しているアプリのニュースパスでは現在ダッシュボードはRe:dashを用いて作成しています。Re:dashは細かいSQLクエリの更新スケジュール設定や、Slack

    【Slack×Re:dash×SpreadSheet】らくらくリアルタイムKPI通知 - Gunosyデータ分析ブログ
    odan_703
    odan_703 2017/08/31
  • 【これからの強化学習】 Gunosy データマイニング研究会 #118 を実施しました - Gunosyデータ分析ブログ

    gunosy-dm.connpass.com こんにちは。グノシー開発部のアルシャマンです。最近は、KID FRESINOのSalve feat. JJJをよく聴いています。 今日は4/12(水)に開催したGunosy DM #118について紹介します。前回に引き続きこれからの強化学習の1.3~1.5節の輪読と、論文紹介を行いました。 Gunosy DMとこれからの強化学習については、以下のブログ記事で紹介しています。 data.gunosy.io 書籍輪読(これからの強化学習) データ分析部の大曽根と吉田からそれぞれ1.3~1.4節と1.5節についての発表がありました。 1.3節では、MDP(マルコフ決定過程)における価値関数の表現と、それを推定するアルゴリズムについて学びました。具体的には、ある方策πのもとでの行動価値関数について成立する再帰式であるベルマン方程式とSarsaという学習

    【これからの強化学習】 Gunosy データマイニング研究会 #118 を実施しました - Gunosyデータ分析ブログ
  • 【これからの強化学習: 輪読会】Gunosy データマイニング研究会を実施しました - Gunosyデータ分析ブログ

    gunosy-dm.connpass.com こんにちは、データ分析部の阿部です。 今回は、先日開催したデータマイニング研究会という勉強会についてご紹介します。 データマイニング研究会とは 勉強会では書籍の輪読と論文紹介を行い、データマイニングに関する基礎知識の向上及び、先端事例の共有・議論を行うことを目的としています。 2週間に1回のペースで開催されており、社外にも公開し広く知見を共有することを目指しています。 Gunosy創業時から取り組んでいるためこの手の勉強会としては歴史は長く(?)、今回で117回目になりました。 これからの強化学習 今回からは「これからの強化学習」を進めていて、1.1と1.2を終わらせました。 内容は強化学習の基礎的なところで、強化学習の構成要素が中心となっています。 これからの強化学習 作者: 牧野貴樹,澁谷長史,白川真一,浅田稔,麻生英樹,荒井幸代,飯間等

    【これからの強化学習: 輪読会】Gunosy データマイニング研究会を実施しました - Gunosyデータ分析ブログ
  • 世界を代表する8人の旬なトップ機械学習研究者たち (2017年上半期版) - Gunosyデータ分析ブログ

    データ分析部の久保です。 最近行ったライブはAimerのAcoustic Live Tour 2017です。 早いもので2017年も3月になりましたが、機械学習分野は相変わらずとてもホットな分野です。 去年はAI人工知能という言葉がディープラーニングとともにバズワードになり、その傾向は尚も続いています。 その流行の元となったのが機械学習なわけですが、今その最先端ではどういう人がどのような研究をしているのかをかなりざっくりと見ていきたいと思います。 調査方法は2013年に同様のことを行ったとき qiita.com と同じく、NIPSとICMLという機械学習の代表的国際会議の過去3年分を対象とし、1st authorの重要度をそれ以外の著者よりも重くしてスコアづけしました。具体的には複数人の著者がいる場合は1st authorを0.8として、残りの0.2を他の著者に分配、1人の場合は1として

    世界を代表する8人の旬なトップ機械学習研究者たち (2017年上半期版) - Gunosyデータ分析ブログ
  • Spark StreamingからAmazon Kinesis Analyticsへ移行する話 - Gunosyデータ分析ブログ

    はじめに こんにちは、データ分析部の森です。主な業務は記事配信アルゴリズムの改善とログ基盤の整備です。 Gunosyでは、ユーザーへより良い記事を提供するためにアクセスログをストリーム処理し、集計結果を記事配信アルゴリズムに活用しています。 ストリームログ基盤にはSpark Streamingを利用していますが、現在Kinesis Analyticsへ移行中です。 この記事ではKinesis Analyticsへ移行する理由や運用上のTips等についてお話します。 Spark Streamingを利用したストリームログ基盤構成 現在のストリームログ基盤はSpark Streamingで集計を行い、結果をRDSに保存しています。 なぜSpark StreamingからKinesis Analyticsへ移行するのか サーバーコストと運用コストの削減を目的としています。 サーバーコストについ

    Spark StreamingからAmazon Kinesis Analyticsへ移行する話 - Gunosyデータ分析ブログ
    odan_703
    odan_703 2017/02/15
  • ABテストの対象をいい感じに割り振る方法 - Gunosyデータ分析ブログ

    こんにちは、データ分析部の石塚 (@ij_spitz) です。 最近聴いている曲は久保田利伸さんのLA・LA・LA LOVE SONGです。 ロンバケ最高でした、月曜9時はOLが街から消えるというのも納得です。 Gunosyではプロダクト改善のためにABテストを用いて意思決定を行っています。 今回はタイトルにもある通り、ABテストを実現させる上で必要となる対象の割り振り方法を、Gunosyで以前使っていた従来の手法と半年ほど前に新しく導入した手法の2つをご紹介します。 いい感じってなんだよと思われるかもしれませんが、従来の手法の課題を解決するようにいい感じに割り振る方法と理解していただければと思います。 それぞれの運用上で気づいたメリット・デメリットなども合わせてご紹介します。 従来の手法 以前はユーザIDを100で割った余りを使用していました。 例えば、全ユーザの1%でテストしたいという

    ABテストの対象をいい感じに割り振る方法 - Gunosyデータ分析ブログ
  • さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門 - Gunosyデータ分析ブログ

    久しぶりの投稿になってしまいましたが、ニュースパス(現在CM放映中!!)開発部の大曽根です。 作業中はGrover Washington Jr のWinelightを聴くと元気が出ます。参加ミュージシャンが素晴らしいですね。 なぜ時系列分析をするのか 季節調整 実演 おまけ: 時間別に見てみる まとめ 今後 なぜ時系列分析をするのか 数値を非常に重視している弊社では、数値を知るためのツールとしてRedashやChartioおよびSlackへの通知を活用しています。現在の数値を理解する上では、長期のトレンド(指標が下がっているのか、上がっているのか)を知ることが重要です。しかし、日々変化するデータ(特に売上やKPIと言われる指標)は、ばらつきも大きく、変化を適切に捉えることが難しいこともあります。 特にSlackなどへの通知を行っていると、日々の変化に囚われがちです。例えば、弊社ではニュース

    さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門 - Gunosyデータ分析ブログ
    odan_703
    odan_703 2017/02/02
  • 【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ

    こんにちは、データ分析部でバイトをしている子田(id:woody_kawagoe)です。 ニュースパスのログを集計して分析するといった業務を行っています。Gunosyで分析に利用しているツールとしては主にJupyter, Pandas, matplotlibがあります。 この組み合わせは非常に相性が良く、研究でも役立つと思います。 そこで今回のブログではデータ分析に役立つtipsや学んだことをまとめます。 Jupyter Pandas matplotlab データ分析の基的な流れ 参考資料 Jupyter jupyter.org ブラウザ上で利用できる開発環境です。 対話型で、作成したスクリプトと出力結果の対応関係が非常に見やすいです。 スクリプトでprint文をかかなくても最終行に変数おけば表示してくれます。 またgithub上にJupyterで作成できるipynbファイルを置くと他の

    【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ
    odan_703
    odan_703 2016/12/27
  • Amazon AthenaをBigQueryと比較してみた

    こんにちは、データ分析部の阿部です。 作業中音楽は聞かない派ですが、ホワイトノイズを聞いていると集中できるという噂を聞いたことがあるので少し気になっています。 今回は、re:Invent2016で発表されたばかりのAthenaを紹介します。 Athenaとは データの準備 テーブル作成 速度測定 まとめ Athenaとは 日、AWSのre:Invent中で、RedshiftやEMRに続くビッグデータサービスとして、Athenaというサービスがリリースされました。 Athenaは、S3上のデータ(CSV, JSON, その他フラットファイル)に対して、インタラクティブにSQLを実行することができます。 RedshiftやEMRに比べて、クラスタの構築や運用を必要とせず、シンプルにクエリを実行できるというメリットがあります。 課金形態も、クエリ&読み込んだデータ量に応じて課金という点で、Go

    Amazon AthenaをBigQueryと比較してみた
    odan_703
    odan_703 2016/12/01
    AWSの新しいビッグデータサービスらしい
  • Amazon Kinesis AnalyticsとES/Kibana4でリアルタイムダッシュボード構築 - Gunosyデータ分析ブログ

    こんにちは。開発・運用推進部の小出です。 イヤホンを噛み切られること数回、最近のBGMはもっぱら環境音です。 「耳からうどんが出ているようにしか見えない」という噂のBluetoothイヤホンが気になっています。 今回は、Amazon Kinesis AnalyticsとElasticsearch/Kibana4を利用したリアルタイムダッシュボード構築についてです。 Amazon Kinesis Analytics とは ダッシュボードを構築してみる Source StreamとMapping Query Destination ログデータを拡充する Reference DataとMapping Query Destination まとめ おまけ:AmazonES&Kibana4のダッシュボード共有 Amazon Kinesis Analytics とは Amazon Kinesis A

    Amazon Kinesis AnalyticsとES/Kibana4でリアルタイムダッシュボード構築 - Gunosyデータ分析ブログ
    odan_703
    odan_703 2016/11/11
  • データ分析について学んだこと by サマーインターンシップ - Gunosyデータ分析ブログ

    こんにちは。データ分析部インターン生の荻原です。 最近はThe Script - Superheroesをよく聞いています。 記事では、私と同じデータ分析部所属の大原が9/20・21の2日間開催されたエンジニア職向けサマーインターンシップに参加したので、 その模様及びそこから得た学びを共有したいと思います! Gunosy Summer Internship 2016とは エンジニア職向けサマーインターンシップの様子 Gunosyに関する講義 Gunosyの開発組織・技術に関する講義 ハッカソン インターンシップでの気づき(荻原) データ・機械学習アルゴリズム理解の重要性 「切り捨てるもの」を明確にすること 状況に応じて作業方針をダイナミックに変更する決断力の大切さ インターンシップでの気づき(大原) 機械学習のモデルに対する理解と経験が必要 評価手法について理解すること 終わりに Gun

    データ分析について学んだこと by サマーインターンシップ - Gunosyデータ分析ブログ
    odan_703
    odan_703 2016/10/20
  • 5分でわかる!BigQuery Tips集 - Gunosyデータ分析ブログ

    こんにちは。データ分析部の阿部です。 今回はBigQueryについてです。 GunosyではもともとRedshiftで運用していましたが、 クエリによっては時間がかかり処理しきれない 同時にクエリを投げると詰まる などの課題を解決するためにBigQueryを一部で導入しました。 今回はBigQuery導入するときのTipsを紹介したいと思います。 Standard SQL テーブルワイルドカード関数 Partitioned Table Re:dashに接続する方法 Google Apps Script を使ってクエリ結果をSlackに通知する方法 まとめ Standard SQL 現時点でベータ版ですが、ついにBigQueryでも標準SQLを使ってクエリを書けるようになりました。 これまでの SQL (Legacy SQL) は癖が強く、 distinct を使って重複を取り除くこともでき

    5分でわかる!BigQuery Tips集 - Gunosyデータ分析ブログ
    odan_703
    odan_703 2016/10/07
  • Sparkで利用できるDeep Learningフレームワークまとめ - Gunosyデータ分析ブログ

    こんにちは、Gunosyデータ分析部に所属している森です。 主な担当業務は記事配信アルゴリズムの改善、ログ基盤運用です。 最近良く聞く音楽はOne Direction - Live While We're Youngです。 記事では、Sparkで利用できるDeep Learningフレームワークをまとめました。 GunosyではChainerで畳み込みニューラルネットワークを応用し、ユーザーのデモグラフィック推定を行っています。 WebDB Forum 2016 gunosy from Hiroaki Kudo Chainer以外にも多数のDeep LearningフレームワークがPythonを中心に数多く存在します。 TensorFlow, Keras, Caffe, Theanoなどなど。どのフレームワークが優れているかという回答は状況に応じて変わりますが、Pythonを使用する大

    Sparkで利用できるDeep Learningフレームワークまとめ - Gunosyデータ分析ブログ
    odan_703
    odan_703 2016/09/30
    SparkのSparkyなエントリ
  • DeepLearningを応用したデモグラフィックの推定について WebDB Forum 2016 で技術報告 & スポンサーしました - Gunosyデータ分析ブログ

    こんちくわ,データ分析部の工藤です. 昨日 9月14日(水) に WebDB Forum 2016 に参加し,技術報告をしてきました. WebDB Forumとは db-event.jpn.org 2016年の今回は,慶應義塾大学 日吉*1キャンパスにて開催されました. Gunosy の発表内容 Gunosyで行っている,畳み込みニューラルネットワークを応用したユーザのデモグラフィック推定について技術報告しました. 下記がその時のスライドとなります. WebDB Forum 2016 gunosy from Hiroaki Kudo 情報レコメンデーションのセッションでの発表となり多数の方に聞いていただけました. 今回の推定の肝となっているCNNを利用しようと思った理由です. いくつかの試行錯誤を重ねて,一般的には画像認識問題に強いCNNを,自然言語処理分野での使われ方などを参考にし適用し

    DeepLearningを応用したデモグラフィックの推定について WebDB Forum 2016 で技術報告 & スポンサーしました - Gunosyデータ分析ブログ
    odan_703
    odan_703 2016/09/16
  • データ分析部ロジック共有会を実施しました - Deep Learning を用いた年齢推定の精度改善について - Gunosyデータ分析ブログ

    こんちくわ,Gunosyデータ分析部の@hmjです. 最近よく聞く音楽GOING UNDER GROUND の さえないブルー です. 今回は,先日開催したデータ分析部ロジック共有会という社内向けの勉強会についてご紹介します. 1. データ分析部ロジック共有会とは データ分析部では,Gunosyの記事配信のロジックを改善したり,KPIをみてデータ分析などを主に行っています. 業務内容や組織体制などは,下記をご覧ください. seleck.cc あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT from Hiroaki Kudo www.slideshare.net データ分析部ロジック共有会とは,そんな私たちデータ分析部で日々行っているロジック改善で,どういったことをしているかなどを 社内の人たちに知ってもらうための勉強会です.

    データ分析部ロジック共有会を実施しました - Deep Learning を用いた年齢推定の精度改善について - Gunosyデータ分析ブログ
    odan_703
    odan_703 2016/09/06
  • Airbnbを利用した開発合宿のススメ - Gunosyデータ分析ブログ

    はじめまして、データ分析部の松嶋です。 現在は、ユーザの行動ログの分析や記事選定ロジックの可視化に取り組んでいます。 先日、Gunosyデータ分析部で開発合宿を開催しました! Gunosyデータ分析部の開発合宿は4回目となり、このエントリではこれまでに蓄積してきた合宿運営ノウハウをご紹介します。 そもそも開発合宿とは Gunosyデータ分析部の開発合宿 いままでの開発合宿 今回の開発合宿の様子 開発合宿を成功させる7つのTips 【その1】2通りの目標設定 【その2】目的によって場所を使い分ける 【その3】忘れがちな必需品 【その4】必要なデータは保存してゆく 【その5】宿泊先候補は旅館だけじゃない 【その6】温泉旅館 vs Airbnb 【その7】裏合宿テーマを決めよう まとめ そもそも開発合宿とは 開発合宿とはその名の通り、普段はオフィスでやっている開発を、寝泊まりできる環境に移動して

    Airbnbを利用した開発合宿のススメ - Gunosyデータ分析ブログ
    odan_703
    odan_703 2016/09/01
    開発合宿を成功させる7つのTips
  • 【Slack×Re:dash】リアルタイムKPI通知をコード0行で実現する - Gunosyデータ分析ブログ

    データ分析部で部長をしている@cou_zです。最近はLIBROのマイクロフォンコントローラーをよく聴いています。 Gunosyにおけるプロダクト改善は、データ可視化による現状把握から始まると考えています。 ログを収集して、ダッシュボードでKPI(重要業績指標)を可視化することは、今では当たり前のことになっていると思います。深夜バッチでKPIを集計して、翌朝に確認することは重要ですが、KPIをリアルタイムに知ることによって、現状把握がさらに進むことがあります。 しかし、リアルタイムにKPIを集計できたとしても、実際にそれらを確認するとは限りません。頻繁にダッシュボードを見るのはとても億劫で、次第に見なくなってしまいがちです。そこで、日常的に開いているチャットにKPIがリアルタイムに通知されると、確認の際の負担を軽減することができます。 Gunosyでは、チャットツールにSlackをダッシュボ

    【Slack×Re:dash】リアルタイムKPI通知をコード0行で実現する - Gunosyデータ分析ブログ
    odan_703
    odan_703 2016/08/26
    みんな大好きダッシュボードのおはなし
  • Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ

    はじめに こんにちは、データ分析部の久保 (@beatinaniwa) です。 今日は義務教育で教えても良いんじゃないかとよく思うWebクロールとスクレイピングの話です。 私自身、日頃は社内に蓄積されるニュース記事データや行動ログをSQLPythonを使って取得・分析することが多いですが、Web上にある外部データを使って分析に役立てたいというシーンはままあります。 単独のページをガリガリスクレイピングしたいときなどは、下の1年半ぐらい前の会社アドベントカレンダーに書いたような方法でやっていけば良いんですが、いくつもの階層にわかれたニュースポータルサイトやグルメポータルサイトを効率よくクロール+スクレイピングするためには、それに適したツールを使うのがすごく便利です。 qiita.com そこでPythonスクレイピングフレームワークScrapyの登場です。 Scrapy | A Fast

    Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ
    odan_703
    odan_703 2016/08/18