統計的因果推論の解釈と、実際の運用における注意点をまとめた資料です。 先日、closedな勉強会で発表したものを一部改変したものです。 twitter : @tomoshige_n mail : tomoshige.nakamura@gmail.com �注)一部、わかりやすさを厳密性よりも優先した部分があります。厳密性などを求める方は、文献等をあたってください。
![統計的因果推論とデータ解析 / causal-inference-and-data-analysis](https://cdn-ak-scissors.b.st-hatena.com/image/square/292b976a08c61cf7fcc269d5ab1e3219be6608bb/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2F7db942f9b05a4a5e98993536ce74687d%2Fslide_0.jpg%3F12726112)
こんにちは,Gunosy Tech Lab の tmotegi です. Gunosy が提供している広告商品の Gunosy Ads では, Gunosy が開発したアプリのユーザ一人一人に対して興味を持つであろう広告を推定してユーザに提示しています. 今回はユーザが興味を持つ広告(=CTR が高い広告)を学習する部分をリプレイスした話について紹介しようと思います. はじめに 従来のシステム 従来のシステムの課題 新システム 結果 今後の課題 おわりに はじめに 従来のシステムと変更するに至った経緯について紹介します. 従来のシステム 従来のシステムでは Spark(Scala) on EMR を用いて,広告に対するユーザの興味を学習していました. 赤枠内が従来のシステム 広告に対するユーザの興味を学習する処理を簡単にまとめると, ユーザ・広告・配信面の特徴量の整形(ベクトル化) 機械学習
卒業していく君へ。 卒業おめでとう。本当は面と向かって言ったほうが良いのだけど先生という立場だと私の発言が思った以上に重くなってしまうので直接君にはいえない。でも、君への言葉を一度形にしておかないと私の頭に一生こびりつきそうなのでここに書かせてもらうよ。 今年、君は卒論に苦しんだね。君が卒論に苦しんだ理由は自分でも分かっていると思うけど、常に外部に正解を求めたことにあるんだ。私が「どうして、それが正しいと思うの?その理由を教えて。」と聞くと、いつも君は表情を凍らせて黙ってしまったね。何度も何度も「研究には正解とか不正解とかない。誰も答えを知らないから研究になっているんだ。だから、自分の主張をとりあえず述べて、相手の反論が正しいと思えてから自分は間違っていたと考えれば良いんだよ。」と伝えたのだけど、最期最後まで君は自分の主張の正しさを自分の言葉で言えず、常に私の保証を求めたね。はっきり言って
これは私達の行っているデータサイエンスのトレーニングで、日本でもグローバルでもよく聞かれる質問です。実は2年ほど前にこの質問に正面から真摯に答えていた"Machine Learning vs. Statistics"という、とても素晴らしい記事があるのですが、今日は、そちらの記事をみなさんに紹介してみたいと思います。 ちなみに、筆者のTom FawcettとDrew HardinはSilicon Valley Data Scienceというデータサイエンスのコンサルティング会社で、多くの有名企業がデータサイエンスを使ってビジネスの問題を解決するための支援を行っていました。ちなみに、その会社の方は去年、Appleに買収されています。さらに、Tomは、「Data Science for Business」(翻訳書:戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック)という有名
JAISTに入学してようやくひと月が経ちました1。 ひと言でいうとJAISTは最高です。働きながら大学院生になった感想を残しておこうと思います。 JAISTは最高 JAISTは最高です。僕は東京サテライトの学生なので以下特に「石川本校」と断りのない限り東京社会人コースのことだと思ってください。 学生のレベルとモチベーションが高い 社会人コースはその名の通り社会人しかいません。働きながら勉強しようという連中なので当然非常に高いモチベーションです。 グループワークをするとみんなつばを撒き散らしながら白熱の議論をしますし、発表するとなるとマイクを奪い合って登壇します。 また、どういうわけかすでに高い教育を受けて世界を股にかけて活躍している第一線のビジネスパーソンがずらりと揃っています。JAISTは入試の際に「自分の出身大学、指導教官、勤め先などを一切明かしてはならない」というルールがあります。こ
On the first day that I owned my Apple AirPods, they would connect to my Mac as soon as I put them in my ears. They don’t do that anymore. Now, I have to click on the bluetooth menu in the menu bar and connect them manually… each time I take them out of the case. This is no good. I’m far too lazy to carry on like this, so I figured out how to connect my AirPods with a keyboard shortcut. Read on to
Running in the background as a virtual input/output, and appearing in your DAW alongside your in/out interface options, Blackhole can shuttle audio around your system to connect anything to anything under the hood. You could, for example, run one DAW's output into another DAW, record the audio output of your browser in another piece of software, or use Blackhole to divert your Mac's alerts and sou
CTR prediction in real-world business is a difficult machine learning problem with large scale nonlinear sparse data. In this paper, we introduce an industrial strength solution with model named Large Scale Piece-wise Linear Model (LS-PLM). We formulate the learning problem with $L_1$ and $L_{2,1}$ regularizers, leading to a non-convex and non-smooth optimization problem. Then, we propose a novel
When I was working at Etsy, I benefited from a very robust A/B testing system. Etsy had been doing A/B testing for more than 6 years. By the time I left, Etsy’s in-house experimentation system, called Catapult, had more than 5 data engineers working on it full-time. Every morning, I was greeted with a homepage that listed all the experiments that Etsy had run in the prior four years. When you clic
プロフィール 1976年、北海道函館市に生まれる。 中学時代に級友の半ば強引な勧誘で吹奏楽に入部。トロンボーンを高校まで続ける。高校受験の頃、デューク・エリントン楽団のCDをきいて「こんな面白い音楽が世の中にあったのか」と衝撃を受けジャズ・ファンとなり、特にベースへの関心が高まっていく。 1995年、名古屋大学入学と同時に軽音楽部に入部し、念願のベースを始める。ジャズ・アンサンブルをギタリストの森田利久氏に師事。在学中よりジャズ・クラブで演奏する機会も得る。趣味では飽き足らなくなり、大学卒業後プロ入りを決意。ベースを中村新太郎氏に師事。また、東海・北陸地方で行われたワークショップに参加し内外のミュージシャンから多くを学ぶ。2002年よりボウイングを榊原利修氏に師事。 2004年、2管編成のクインテットでリーダーとして初めて演奏する。以来、機会があるたびにリーダーとしても活動する。選曲に際し
multiprocessing.shared_memory モジュールで、共有メモリを使ってプロセス間でデータを交換できるようになりました。似たような処理は mmap モジュールで実現できましたが、マルチプラットフォームで簡単に利用できるようになります。 Numpyの ndarray オブジェクトを複数のプロセスで共有する場合、まず最初のプロセスで次のように共有メモリを作成します。この例では、共有メモリの名前は "sharedmemory_test1" とします。 import math from multiprocessing import shared_memory import numpy as np SHAPE = (3,3) # 共有メモリ "sharedmemory_test1" を作成 size = math.prod(SHAPE) * numpy.dtype("float"
担当した3daysインターンシッププログラムが無事に終ったので、自分が何を考えていたかをまとめます。いわゆる「機械学習エンジニア」向けのインターンです。 https://voyagegroup.com/internship/adventure/ 背景 期間3日でやりたいと打診を受けた時に真っ先に思いついたのはコンペ形式のプログラムでした。しかしKaggleを筆頭に実際のビジネスで発生したデータを使ったEDAおよび機械学習予測モデルの開発ができる機会は今やいくらでもあるため、Kaggleそのままの形式では目新しさに欠ける。さらに実際の開発業務では求めた予測値を使って意思決定を自動化する所までが求められるため、予測器を作って精度を見て終りというのは片手落ちとなってしまう。よって、求めた予測値を利用して意思決定を行なうアプリケーションを実装してビジネス指標が出力として得られる部分までを範囲としま
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く