ブックマーク / data.gunosy.io (38)

  • DEIM2019で一般発表とスポンサーを行いました - Gunosyデータ分析ブログ

    こんにちは、研究開発チームの関です。 ついに今週末はひなフェスですね。当然ながら皆さんご存知だと思いますが鞘師里保さんの復活ステージです。 道重さゆみさんと鞘師里保さんの関係性が好きなので、お二人の共演にも注目したいと思います。 私は残念ながらチケットが手に入らなかったので、中継が行われるひかりTVに入会しました。転売屋は滅びるべき。 3/4~3/6に長崎県ハウステンボスで行われた、第11回データ工学と情報マネジメントに関するフォーラム(DEIM2019)に参加しました。 DEIMには2017年から参加しており、今年で3年目になります。 これまでDEIMはスポンサーの募集をしていなかったのですが、今年から募集が始まりスポンサードさせていただきました。 今回の参加人数は687人と過去最高だったようです。 DEIMについて DEIMはいわゆるDBコミュニティと言われているコミュニティの研究者の

    DEIM2019で一般発表とスポンサーを行いました - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2019/03/27
  • Web IntelligenceとIEEE Bigdataで発表してきました - Gunosyデータ分析ブログ

    こんにちは、研究開発チームの関です。 夢眠ねむ卒業公演素晴らしかったですね。WWDBestで膝から崩れ落ちました。近年におけるアイドルのあり方として一つの完成形をみた気がします。夢眠ねむさんとでんぱ組さんの今後のご活躍を引き続き応援しています。 今回のブログでは2018年12月3日〜6日に行われたWeb Intelligence(WI) 2018と2018年12月10日のIEEE Bigdata 2018のWorkshopに参加&発表してきましたのでその報告をさせていただきます。 当社として、そして個人としてもはじめての国際会議参加&発表でした。とても良い経験になりました。 Web Intelligence 2018 Web Intelligence(WI)はウェブに関する国際会議の一つです。 セマンティックウェブとかソーシャルメディアとか推薦システムとか、応用よりで学際的な研究に焦点が当

    Web IntelligenceとIEEE Bigdataで発表してきました - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2019/01/15
  • DeepなFactorization Machinesの最新動向 (2018) - Gunosyデータ分析ブログ

    はじめに こんにちは。研究開発チームの関です。 最近毎週日曜日の恋するワンピースの更新を楽しみに生きています。好きなツッコミは「この船の航海士は誰?」です。 あと虹のコンキスタドールのベストアルバム「THE BEST OF RAINBOW」は皆さん買いましたか? 健康にいいので毎日聞きましょう。 この記事はGunosy Advent Calendar 2018の22日目の記事です。 昨日はcou_zさんの「【年末年始に読みたい】Gunosyエンジニアが2018年に購入した書籍まとめ」でした。 皆さんFactorization Machinesは好きですよね。 予測モデル構築においてはXGBoostと並んでとりあえずやっておくべき手法として知られています。 今回のエントリではKDD2018で発表されたxDeepFMを読み解きながら、 DeepなFactorization Machineの現状

    DeepなFactorization Machinesの最新動向 (2018) - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2018/12/22
  • Prod2Vecの推薦/予測システムのパラメータチューニング提案 [論文紹介] - Gunosyデータ分析ブログ

    Gunosy8月入社のshunk(@makuramoto1)です.前職は研究員とマネージャーの間みたいなことをやっておりました.現在は,Gunosyのデータ分析や,どのように記事を出したりするかといったロジックを開発する仕事を担当しています.Web業界に初めて参入して,現在の職種もキャリアチェンジみたいなことをしたので,いち早く仕事をこなせるように邁進しております. さて,記事はGunosy Advent Calender2018の5日目の記事です. 弊社では論文輪読会が週1で行われています.その際に,推薦モデルProd2Vecのハイパーパラメータ*1のチューニングに関する論文がありまして,面白そうだなと思い,以下の「Prod2Vecのパラメータチューニングに関する論文」を拝読いたしました. 拝読した論文達 Prod2Vecのパラメータチューニングに関する論文 Word2vec appl

    Prod2Vecの推薦/予測システムのパラメータチューニング提案 [論文紹介] - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2018/12/06
  • A/Bテストよりすごい?はじめてのインターリービング - Gunosyデータ分析ブログ

    はじめに こんにちは。メディアデータ分析部の飯塚(@zr_4)です。 弊社では現在、複数のニュース形式のアプリケーションを運用しており、各プロダクトでユーザーの趣向にあうような記事リストのパーソナライズを行っています。 左から:LUCRA、ニュースパス、グノシー そのため、記事のランキングに関するA/Bテストをする機会が多々あり「少数のユーザーで高速に有力なパラメータを探したい」というニーズがありました。 今回は上記ニーズを満たすべく、グノシーの番環境に導入したインターリービングを紹介します。 インターリービングとは 概要 インターリービングは高感度なランキング評価手法です。 実験的に、10倍から100倍従来のA/Bテストよりも効率的であることが知られています。*1 従来のA/Bテストにおいて、2つのランキングリストを評価する際は、ユーザを2つの群に分け各々に別々のランキングリストを提示

    A/Bテストよりすごい?はじめてのインターリービング - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2018/10/15
  • ニュースパスを支える関連記事推薦と近似近傍探索 - Gunosyデータ分析ブログ

    こんにちは。メディアロジック分析部の米田 (@mathetake) です。 今日はGunosy社とKDDI社が共同で運営するニュースパスというニュースアプリケーションで使われている関連記事推薦のアルゴリズムについて書きたいと思います。 特に、約半年前に私が導入しKPIの改善に成功した新しいアルゴリズムと、そこでコアとなる近似近傍探索(Approximate Nearest Neighbor search)の技術について述べます。 関連記事推薦とは この記事で紹介する関連記事推薦とは、「特定のニュースに関連したニュースを推薦すること」です。 より具体的には、特定の記事をクリックした後に記事閲覧画面を下にスクロールすると登場する「おすすめ記事」の枠に対して、関連したニュースを検索して表示することを指します: このような枠が設置されている事は一般的なアプリケーションにおいてごく自然ですが、推薦シ

    ニュースパスを支える関連記事推薦と近似近傍探索 - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2018/09/27
  • 第32回人工知能学会全国大会(jsai2018)に参加し、研究発表を行いました - Gunosyデータ分析ブログ

    こんにちは、データ分析部研究開発チームの関です。 2018年6月5日〜6月8日に開催された2018年度人工知能学会全国大会にGunosyから大曽根、米田、山田、関の4名で参加しました。 当社はゴールドスポンサーとして協賛させていただき、主著発表1件, 共著発表1件, インダストリアルセッションでの発表1件, ランチョンセミナーの開催, スポンサー展示を行いました。 今年度の会場は鹿児島県鹿児島市の城山ホテルというところです。 駅からバスやタクシーで15分ぐらい、山の上にあるホテルでした。 晴れていれば桜島がきれいに見えるらしいのですが、残念ながら期間中は天気に恵まれませんでした。 昨年が名古屋という大都市での開催だったのに対して地方での開催ということで、参加人数は減る見込みだったそうなのですが、 約2,500人と過去最高を記録したそうです。人工知能という技術領域に対する社会的関心がますます

    第32回人工知能学会全国大会(jsai2018)に参加し、研究発表を行いました - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2018/06/18
  • サムネイル画像に対するテキスト認識の性能比較について (Pytesseract / Google Cloud Vision API / Amazon Rekognition) - Gunosyデータ分析ブログ

    こんにちは。データ分析部アルバイトの北田 (@shunk031) です。好きなべ物は畳み込みニューラルネットワークです。 はじめに Gunosyでは広告を出稿する際に使用するサムネイル画像や広告画像において、テキストが占める割合の多い画像を把握したいといったニーズがあります。 Facebookの広告ポリシー*1では、広告内のテキストが過剰であるときに配信数が減ってしまったり、まったく配信されなくなる場合があるようです。 通常、画像から文字を読み取るOCR技術を利用することで前述のニーズを満たすことができそうです。 OCRを利用するにはPythonから使えるpytesseractや、Google Cloud Vision APIAmazon RekognitionといったクラウドベースのAPIを用いる方法があります。 これらpytesseract、Google Cloud Vision

    サムネイル画像に対するテキスト認識の性能比較について (Pytesseract / Google Cloud Vision API / Amazon Rekognition) - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2018/05/09
  • 言語処理学会第24回年次大会(NLP2018)に参加 & 論文賞受賞しました - Gunosyデータ分析ブログ

    はじめまして、データ分析部の小澤(id:skozawa)です。 3月12日(月)〜3月16日(金)に開催された言語処理学会第24回年次大会(NLP2018) @岡山コンベンションセンターに、Gunosyから、関、久保、茂木、桾澤(インターン生)、小澤の5名で参加しました。 スポンサー発表 今回、Gunosyはゴールドスポンサーとして参加し、スポンサーブースでは、Gunosyにおける自然言語処理や機械学習を活用した取り組みについて、ポスター発表しました。 具体的には、以下のような発表をしました。 記事・動画閲覧ログを利用したニュース・動画配信の最適化 記事・動画閲覧ログを利用した広告配信の最適化 クリックベイトの分析 クリックされやすいがユーザの満足度を伴わないコンテンツの調査・定量化 DEIM 2018でも発表(タイトルと画像が一致しないニュース記事による クリックベイトの文析, 関, D

    言語処理学会第24回年次大会(NLP2018)に参加 & 論文賞受賞しました - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2018/03/27
  • アプリログの自動異常検知を試してみた~密度比による異常検知入門~ - Gunosyデータ分析ブログ

    Gunosyデータ分析部アルバイトの鈴木です。今回は密度比を利用したバージョンリリースにおける異常検知について学んだことをまとめたいと思います。 やりたいこと 超長期的にやりたいこと 密度比を用いた異常検知のイメージ ダミーデータでの実装例1 今回試したやり方 今後試していくやり方 ダミーデータでの実装例2 密度比の平均二乗誤差を用いる場合 直接密度比推定する場合 参考資料 やりたいこと ニュースパス(Gunosyの提供するプロダクトの一つ)をバージョンアップした時に、もし異常があればユーザーアクションログからその兆候を見つけてslackなどに通知できるようにすることが目標です。 (QA項目以外でのログ欠損やアップデートによる予期せぬユーザ行動の検知をするためです。) 現在Gunosyでは、バージョンアップ時に異常がないかどうか調査するために人手を割いています。しかし、もし自動で異常を確実

    アプリログの自動異常検知を試してみた~密度比による異常検知入門~ - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2018/01/11
  • 自然言語処理×ジャーナリズムな研究まとめ ~ EMNLP2017 Workshopより ~ - Gunosyデータ分析ブログ

    いつものやつ はじめに 各研究の分類 ニュースの品質に関する研究 Predicting News Values from Headline Text and Emotion Incongruent Headline: Yet Another Way to Mislead Your Readers Deception Detection in News Reports in the Russian Language Fake News Detection using Stacked Ensemble of Classidiers From Clickbait to Fake News Detection: An Aproach based Detecting the Stance of Headlines to Articles ニュースとユーザとの関係に関する研究 Predicting U

    自然言語処理×ジャーナリズムな研究まとめ ~ EMNLP2017 Workshopより ~ - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2017/12/19
  • データ分析部が開発・運用するバッチ アプリケーション事情 - Gunosyデータ分析ブログ

    はじめに こんにちは、データ分析部の森です。 この記事ではGunosyデータ分析部がどのような視点に基づいてバッチアプリケーション(以下、バッチ)を開発・運用しているかしているのかを紹介します。 クライアントアプリ開発やAPI開発と比較してバッチ開発のノウハウなどをまとめたWeb記事の数は少なく感じます。 また、言語に関わらずWebフレームワークの数に対して、バッチフレームワークの数も少数です。 このような点を踏まえると一般的には難易度の高くない(ノウハウを必要としない、フレームワークに頼る必要のない)、もしくはニーズがあまりないなどの印象があるのかもしれません。 一方で我々は日々バッチ開発を行い、数多くの地雷を踏んできました。 これらの経験を踏まえてどのような点に気をつけているのかについて共有します。 理想的には多くの方の経験を共有して、建設的な議論に発展するとうれしいです。 はじめに

    データ分析部が開発・運用するバッチ アプリケーション事情 - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2017/10/11
  • エンジニア向けデータ分析サマーインターンシップに参加して - Gunosyデータ分析ブログ

    こんにちは、来年度からデータ分析部に所属する山田です。 今はまだ学生です。 一足先にGunosy Summer Internship 2017 データ分析コースのメンターアルバイトとして参加したので、その様子や知見を記していきたいと思います! Gunosy Summer Internship 2017 について 「データ分析コース」の様子 講義 ランチ・新卒トーク ワーク ベンチマークシステム 作業環境 結果発表 インターンでの気付き(メンター山田) インターン参加者の感想 第一回 京都大学大学院 澤田さん 手法について 限られた時間で形にすること 教訓みたいなもの 東京大学 原田さん 用いた手法について 参加してみての感想 東京大学 丹羽さん 用いた手法、時間の使い方 学びと感想 筑波大学 小林さん 用いた手法について 感想 インターン参加者の感想 第二回 大阪大学 中村さん 分析に用い

    エンジニア向けデータ分析サマーインターンシップに参加して - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2017/10/03
  • Gunosy における AWS 上での自然言語処理・機械学習の活用事例: AWS Summit dev day 2017 - Gunosyデータ分析ブログ

    はじめに こんにちは。Gunosyデータ分析部の大曽根(@dr_paradi) です。最近はJOHN TROPEA BAND featuring STEVE GADD etcのライブを観に行きました。 業務では主にニュースパスのユーザ行動分析、記事配信アルゴリズム開発全般を担当しています。 先日開催されました、AWS Dev Day Tokyo 2017において、「Gunosy における AWS 上での自然言語処理・機械学習の活用事例」というタイトルで発表してきましたので、その内容について簡単ですが書きたいと思います。 はじめに 発表内容 記事分類 属性推定 + スコアリング 属性推定 スコアリング 効果測定 (ABテスト) おわりに 発表内容 私が発表した内容は下記のスライドにまとまっています。弊社が提供するサービスのニュースドメインのもの(グノシー、ニュースパス)における処理の流れを大

    Gunosy における AWS 上での自然言語処理・機械学習の活用事例: AWS Summit dev day 2017 - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2017/07/05
  • さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門 - Gunosyデータ分析ブログ

    久しぶりの投稿になってしまいましたが、ニュースパス(現在CM放映中!!)開発部の大曽根です。 作業中はGrover Washington Jr のWinelightを聴くと元気が出ます。参加ミュージシャンが素晴らしいですね。 なぜ時系列分析をするのか 季節調整 実演 おまけ: 時間別に見てみる まとめ 今後 なぜ時系列分析をするのか 数値を非常に重視している弊社では、数値を知るためのツールとしてRedashやChartioおよびSlackへの通知を活用しています。現在の数値を理解する上では、長期のトレンド(指標が下がっているのか、上がっているのか)を知ることが重要です。しかし、日々変化するデータ(特に売上やKPIと言われる指標)は、ばらつきも大きく、変化を適切に捉えることが難しいこともあります。 特にSlackなどへの通知を行っていると、日々の変化に囚われがちです。例えば、弊社ではニュース

    さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門 - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2017/02/03
  • Sparkで利用できるDeep Learningフレームワークまとめ - Gunosyデータ分析ブログ

    こんにちは、Gunosyデータ分析部に所属している森です。 主な担当業務は記事配信アルゴリズムの改善、ログ基盤運用です。 最近良く聞く音楽はOne Direction - Live While We're Youngです。 記事では、Sparkで利用できるDeep Learningフレームワークをまとめました。 GunosyではChainerで畳み込みニューラルネットワークを応用し、ユーザーのデモグラフィック推定を行っています。 WebDB Forum 2016 gunosy from Hiroaki Kudo Chainer以外にも多数のDeep LearningフレームワークがPythonを中心に数多く存在します。 TensorFlow, Keras, Caffe, Theanoなどなど。どのフレームワークが優れているかという回答は状況に応じて変わりますが、Pythonを使用する大

    Sparkで利用できるDeep Learningフレームワークまとめ - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2016/09/27
  • Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ

    はじめに こんにちは、データ分析部の久保 (@beatinaniwa) です。 今日は義務教育で教えても良いんじゃないかとよく思うWebクロールとスクレイピングの話です。 私自身、日頃は社内に蓄積されるニュース記事データや行動ログをSQLPythonを使って取得・分析することが多いですが、Web上にある外部データを使って分析に役立てたいというシーンはままあります。 単独のページをガリガリスクレイピングしたいときなどは、下の1年半ぐらい前の会社アドベントカレンダーに書いたような方法でやっていけば良いんですが、いくつもの階層にわかれたニュースポータルサイトやグルメポータルサイトを効率よくクロール+スクレイピングするためには、それに適したツールを使うのがすごく便利です。 qiita.com そこでPythonスクレイピングフレームワークScrapyの登場です。 Scrapy | A Fast

    Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2016/08/18
  • 海外の有名IT企業のABテストブログまとめ - Gunosyデータ分析ブログ

    データ分析部の @ij_spitz です。 普段の業務では主にABテストを用いたプロダクト改善、ユーザーの行動分析などを行っています。 今日はタイトルにもある通り、プロダクト改善をするためにABテストを始めてみたいけど何をすればいいのかわからない、実際にABテストをやってみたけど当にこれで定量的な評価ができているのか心配、新しくABテストを自動で集計・評価できる基盤を作りたい、という時に参考にしたいブログを紹介します。 海外にはTwitterやLinkedInなどを始めとして、自社のABテストの基盤やノウハウをブログで公開している企業が数多くあります。 もちろんブログの中身は英語ですが、頑張って読んでみると日ではあまり知られていないことが書いてあったりするので、ぜひ一度読んでみることをおすすめします。 Twitter Engineering | Twitter Blogs Twitte

    海外の有名IT企業のABテストブログまとめ - Gunosyデータ分析ブログ
    yag_ays
    yag_ays 2016/08/09