タグ

ブックマーク / hagino3000.blogspot.com (52)

  • 「施策デザインのための機械学習入門」が素晴しい内容だった

    読んだので感想を書きます。「手元のデータに当てはまりの良い予測モデルを番適用してもビジネス的に良い結果が得られない」という現場で頻発する課題に対して明快なアプローチと手順を示しており、機械学習がワークするために必要な要素がクリアになりました。 施策デザインのための機械学習入門〜データ分析技術のビジネス活用における正しい考え方 技術評論社 (2021/7/30) 齋藤 優太 (著), 安井 翔太 (著), 株式会社ホクソエム (監修) Kindle版/紙版両方あり 目次と構成 はじめに1章 機械学習実践のためのフレームワーク2章 機械学習実践のための基礎技術3章 Explicit Feedbackを用いた推薦システム構築の実践4章 Implicit Feedbackを用いた推薦システムの構築5章 因果効果を考慮したランキングシステムの構築付録A 演習問題感想著者はまず1章で機械学習の実践で

    「施策デザインのための機械学習入門」が素晴しい内容だった
    hagino_3000
    hagino_3000 2021/11/01
    書きました。ビジネスKPIの改善に責任をもつ機械学習エンジニアにかなりおすすめです
  • ビジネス価値を生むことに責任を持つために実践している内容を『仕事ではじめる機械学習 第2版』に書きました

    第2版がでました。 仕事ではじめる機械学習 第2版 オライリー・ジャパン (2021年04月) 有賀 康顕、中山 心太、西林 孝 著 電子版版/紙版両方あり 私は7章の「効果検証」と13章の「オンライン広告における機械学習」を執筆しました。12章は書き下し新章です。既に発売からは時間が経っているのでこの2つの章の裏話というか思想について解説します。 PoC貧乏という言葉があるように機械学習を用いてビジネス価値を生む施策は失敗しがちなことが知られてきました。前提として書はその様な失敗しやすい施策をできるだけ成功に近づけるにはどうしたら良いかを広く扱っています。 ビジネス価値を定義する予測を当ててどんな価値を生みたいのかを定義しないと開発は始まりません。13章では広告配信事業者の顧客である広告主の効用を選びました。オンライン広告ではオークションによる広告枠の売買が行なわれます。広告主は財の買

    ビジネス価値を生むことに責任を持つために実践している内容を『仕事ではじめる機械学習 第2版』に書きました
    hagino_3000
    hagino_3000 2021/08/24
    第2版の担当章について裏話というか思想を書きました、よろしくおねがいします。
  • Data validation for machine learning 読んだ

    Breck, Eric, et al. "Data validation for machine learning." Conference on Systems and Machine Learning (SysML). https://mlsys.org/Conferences/2019/doc/2019/167.pdf . 2019. 読み手のコンテキスト現職で機械学習予測モデルをプロダクトに投入する様になって3年程経った。そうもなると開発時に想定していた訓練データの分布と現状の分布が乖離して、予測の動作不良を引き起すケースがしばしば見られる様になった。明らかな予測の不具合として目立っていなくとも性能が落ちている部分はもっとあるはずで、これに早く気づいて対応したいモチベーションがある。かつ運用専任メンバーはいないので、できるだけ運用は手を抜きたい。概要著者らはData Validat

    Data validation for machine learning 読んだ
    hagino_3000
    hagino_3000 2020/07/03
    MLシステムの運用がまじでつらくなってきたので読みました
  • 『効果検証入門』がアプリケーション開発エンジニアにとって得る物が多い本だった

    読みました。アプリケーション開発エンジニア視点で読んで同僚に勧められる素晴しい内容でした。稿はエンジニア視点のレビューになります。 効果検証入門〜正しい比較のための因果推論/計量経済学の基礎 技術評論社 (2019/1/18) 安井 翔太 (著), 株式会社ホクソエム (監修) Kindle版/紙版両方あり 目次と構成 序 嘘っぱちの効果とそれを見抜けないデータ分析 1章 セレクションバイアスとRCT 2章 介入効果を測るための回帰分析 3章 傾向スコアを用いた分析 4章 差分の差分法(DID)とCausalImpact 5章 回帰不連続デザイン(RDD) 付録 RとRStudioの基礎 終 因果推論をビジネスにするために まず効果検証とは何かという導入と共にビジネスの現場でありがちな誤りのある検証について解説があります。この誤りの原因となるセレクションバイアスと理想的な比較方法であるラ

    『効果検証入門』がアプリケーション開発エンジニアにとって得る物が多い本だった
    hagino_3000
    hagino_3000 2020/05/05
    被説明変数を対数にした時の解釈。プロットを見ればすぐわかると教えてもらいました。確かにゼロに近い時だけ近似が有効https://twitter.com/hagino3000/status/1257593626047033344
  • データ分析系3daysインターンシッププログラムで伝えたかったこと

    担当した3daysインターンシッププログラムが無事に終ったので、自分が何を考えていたかをまとめます。いわゆる「機械学習エンジニア」向けのインターンです。 https://voyagegroup.com/internship/adventure/ 背景 期間3日でやりたいと打診を受けた時に真っ先に思いついたのはコンペ形式のプログラムでした。しかしKaggleを筆頭に実際のビジネスで発生したデータを使ったEDAおよび機械学習予測モデルの開発ができる機会は今やいくらでもあるため、Kaggleそのままの形式では目新しさに欠ける。さらに実際の開発業務では求めた予測値を使って意思決定を自動化する所までが求められるため、予測器を作って精度を見て終りというのは片手落ちとなってしまう。よって、求めた予測値を利用して意思決定を行なうアプリケーションを実装してビジネス指標が出力として得られる部分までを範囲としま

    データ分析系3daysインターンシッププログラムで伝えたかったこと
    hagino_3000
    hagino_3000 2019/10/07
    機械学習エンジニア向けのインターンをやったのでプログラム内容を考えた意図をまとめました
  • 「戦略的データサイエンス入門」がOJTの参考書として良さそうだった

    配属された新人氏に勧められるか確認すべくあらためて読み直した。データサイエンスのビジネス適用という主題で様々なトピックに触れているが自分は次の3点に注目した。 ビジネス課題をどのようにデータサイエンスの手法で解決するか、どのように対応方法がわかっているサブタスクへ分解するかのアプローチ モデル評価の方法 データサイエンス組織の運用・育成 感想はサービス開発現場のソフトウェアエンジニアとしてのものです。まずは書籍の基情報と目次。 戦略的データサイエンス入門 ―― ビジネスに活かすコンセプトとテクニック オライリー・ジャパン Foster Provost、Tom Fawcett 著、竹田 正和 監訳、古畠 敦、瀬戸山 雅人、大木 嘉人、藤野 賢祐、宗定 洋平、西谷 雅史、砂子 一徳、市川 正和、佐藤 正士 訳 O'reilly,  Amazon 原著: Data Science for Bu

    「戦略的データサイエンス入門」がOJTの参考書として良さそうだった
    hagino_3000
    hagino_3000 2019/05/14
    休みに読み返した所とても良かったです
  • オペレーションズ・リサーチ学会の研究発表会に行ってきた

    近くで開催していたので聴講に。 日オペレーションズ・リサーチ学会2019年春季研究発表会 http://www.orsj.or.jp/~nc2019s/index.php/program/ 何故このタイミングでORの学会かと言えば、広告配信サービスの現場でエンジニアやってると因果推論も機械学習も組合せ最適化もやらなきゃいけない状態で。最近だと特に最適化に時間を多く使っているのでリサーチの動向を見たくて参加してきた。ちなみにORの事は良く知らないので滅茶苦茶な事を書いているかもしれない。 全体の感想 招待公演はどれも興味深く、製造・インフラ・輸送業と共に進歩してきたORの歴史の厚みを感じた。カーマーカー法が発表されてから主双対内点法へ至る話や演算子オーバーロード方式の自動微分が最適化ソフトウェアに与えたインパクトといった自分でも知ってる様な伝説級のエピソードについて当事者から聴けたのはわく

    オペレーションズ・リサーチ学会の研究発表会に行ってきた
    hagino_3000
    hagino_3000 2019/03/16
    書きました。それにしてもJSAI・NLPとの勢いの差はなんなんだろうねと
  • 検索連動広告の因果効果とROIの推定

    ネット広告の因果効果推定について調べた時に読んだeBay*1の検索連動広告*2の因果効果推定についての論文が面白かったのでメモ。検索連動広告経由の流入のうち広告を出稿しなくとも得られた流入、つまり他の経路で流入したであろう分を差し引いた量(causal effectiveness of paid search ads)を推定しています。 Blake, Thomas, Chris Nosko, and Steven Tadelis. "Consumer heterogeneity and paid search effectiveness: A large‐scale field experiment." Econometrica 83.1 (2015): 155-174. https://www.nber.org/papers/w20171 要約 eBayはブランドキーワードとノンブランド

    検索連動広告の因果効果とROIの推定
    hagino_3000
    hagino_3000 2019/01/23
    書きました
  • エンジニアキャリア15年のふりかえり

    pyspa Advent Calendar 2018の25日目の記事です。 2018年は体を壊して停滞の年でした。タイピングで腕に痛みが生じる状態が続き、生産性はガタ落ちした上に通院に時間を取られて何もできませんでした。潔く今年の話題は諦めて、今までのソフトウェアエンジニアのキャリアを振りかえります。 1行で書くと大学で生物やってSIerに入って何回か転職して機械学習エンジニアです。 就職 2002年、私は研究の道に進む気は無く就職活動をしていました。就職氷河期*1と呼ばれた時期でさらに「理系なのに就職先が無い」と言われる生物学部生だったので学部不問の求人をあたっていました。さて、学部不問の新卒求人と言えばSIerです。あらゆる人材を受けいれているだけあってすんなり内定が出ました。インターネット界隈では常にDisられる存在ですが情報システム開発の現場に潜り込む機会を与えてくれた点には感謝し

    エンジニアキャリア15年のふりかえり
    hagino_3000
    hagino_3000 2018/12/26
    15年をふりかえりました。pyspaアドベントカレンダー25日目の記事です。
  • hagino3000's blog: KDD2018 アドテク関連レポートを書きました

  • 何故予測が当たるだけではマズいのか、因果と機械学習

    KDD2018の感想です。AdKDDやネット広告方面は職場のBlogに書くので、こちらは他の話を。今年は因果推論のチュートリアルが超満員だったり、予測モデルの差別、解釈性と説明性「interpretable and explainable machine learning models」が注目されたりと単に予測するのでは無く運用課題の話が増えたのが印象に残っています。 リスク予測とインセンティブデザイン 上の写真はDavid Hand氏による講演「Data Science for Financial Applications」の一場面です。自動車保険の保険料が女性に比べて男性が高い事に抵抗して行政上の性別を変更した男性*3の例が紹介されています (NEW YORK POSTの記事)。 事故を起す確率が高いと予測された顧客に高い保険料を課すのは自然なアイデアです。しかし事故発生確率と因果があ

    何故予測が当たるだけではマズいのか、因果と機械学習
    hagino_3000
    hagino_3000 2018/10/22
    アドテク以外でKDDの感想を書いた
  • Machine Learning Casual Talks #5 でMLシステムの実装・運用について発表しました

    ネット広告配信サービスのMLシステムをどのように作って運用しているかの話をしました。メルカリさんの発表が組織の課題を解決していく話になっているのに対して、私のは個人で好き勝手にやっていく話で非常にカジュアルだったと思います。チームの規模が違いますからね。 スライド: ネット広告配信サービスにおけるMLシステムの実装と運用 Machine Learning Casual Talks #5 https://mlct.connpass.com/event/88797/ 発表の他には雑談で「GBDTの推論処理をWebサーバーに組みこむのはどうするのがいいか」なんて話が気軽にできたり、非常に楽しめました。 会場のメルカリ社は初訪問、人材のブラックホールなだけあって元同僚にも遭遇。関係無いけどメルカリ社からは、eBayが出してるような実験経済系の論文が出てくると面白いかなと期待しております。

    hagino_3000
    hagino_3000 2018/07/15
    やってきました
  • hagino3000's blog: AdKDD & TargetAd 2017 まとめと感想

    改めて発表内容に目を通し直したのでまとめます。 KDD2017 2日目のWorkshop Dayはネット広告分野のワークショップであるAdKDD & TargetAd 2017に参加していました。AdExchange, DSP, Advertiser, Publisherと様々な立場での課題と解決策が聞けて面白かった。ペーパーと発表スライド、動画は以下のサイトから辿れます。 AdKDD & TargetAd 2017 https://adkdd17.wixsite.com/adkddtargetad2017/accepted-papers Paper: Optimal Reserve Price for Online Ads Trading Based on Inventory Identification AdExchangeの立場でRTBのReserve Priceの最適化 DSPが高

    hagino3000's blog: AdKDD & TargetAd 2017 まとめと感想
    hagino_3000
    hagino_3000 2018/01/09
    まとめました
  • オライリーから「仕事ではじめる機械学習」という本を出しました

    オライリーから「仕事ではじめる機械学習」というを出しました。技術書典2で頒布した同人誌がベースで引き続き @chezou, @tokoroten 両氏と共著です。実務者向けの内容で対象読者は情報システム開発現場のエンジニアです。 O'Reilly Japan - 仕事ではじめる機械学習 https://www.oreilly.co.jp/books/9784873118215/ 私は同人誌版で「ゲームの試合結果データのマイニング」の章を書きましたが、今回はより実務的な内容として効果検証について書いています。主に仮説検定と因果効果推定です。内容はChezouさんの告知を参照していただくとして、補足とバックグラウンドを紹介します。 お前だれよ インターネット広告配信システムの配信ロジックの開発をしています。2015年まではデータを集める所から分析基盤の構築を経てBIツールの導入、バッチ処理環

    オライリーから「仕事ではじめる機械学習」という本を出しました
    hagino_3000
    hagino_3000 2017/11/07
    書きました。
  • KDD2017感想 Tutorial Day: Asking the Right Business Questions?

    データマイニングの国際会議であるKDDに参加してきました。まずは1日目のチュートリアルの感想です。 From Theory to Data Product: Applying Data Science Methods to Effect Business Change. http://www.t4g.com/kdd2017/ ビジネス現場におけるデータ分析プロジェクトをいかに回すかといったテーマ。T4Gというカナダのコンサルティング企業が実際に使っているフレームワークに沿った内容で、次の3部構成。 プロジェクトの初動に何をすべきか。業界とトップダウン or ボトムアップで何が変わるかのケーススタディ 具体的なアクション導き出すための「Right Question」 アジャイルプロセスを応用した意思決定 講義に加えてそれぞれの課題が渡されてグループディスカッションを行なった。どちらかといえば

    KDD2017感想 Tutorial Day: Asking the Right Business Questions?
    hagino_3000
    hagino_3000 2017/08/28
    KDD1日目の感想書いた
  • 報酬が線形モデルで表せる時のバンディット問題

    『バンディット問題の理論とアルゴリズム』の,報酬がなんらかの特徴の線形モデルによって表現される場合に使える線形バンディットが前から気になっていたので輪読会で発表担当をするなど. スライド アルゴリズムの実装と人工データによる実験 LinUCBとThompson Sampling,報酬が正規分布のケース ロジスティック回帰モデル上のバンディット,報酬が二値のケース 感想 行動(腕)毎の報酬を推定するのでは無く,報酬モデルのパラメータを推定するという方策.妥当なモデルが作れたら実際に使えそうな感触. 実装は一発書きおろしで検算をしていないが,一応それっぽく動いた.ラプラス近似の処理が重いので勾配ベクトルとヘッセ行列の計算過程はキャッシュしておかないとつらい. LinUCBかThompson Samplingかどちらを使うかというと,報酬が同期で観測できない広告配信は後者一択で,報酬が二値の場

    報酬が線形モデルで表せる時のバンディット問題
    hagino_3000
    hagino_3000 2016/12/06
    ロジスティック回帰+Thompson Samplingが良さそうな雰囲気でした.
  • Spotify社のエンジニア評価制度

    Spotifyが日に上陸しましたね。現在はアプリをインストールしてもすぐにサービスが利用できない様子、その隙に彼等の技術職評価制度についてのブログエントリを読みます。 ブログエントリは3部作になっており、技術職のキャリアパスフレームワークを作ったモチベーションに始まり、そこから得た物まで纏まっています。 印象に残った箇所 キャリアパスフレームワークをいつ作るか 会社の初期の頃にはキャリアパスフレームワークは不要である。しかし8年間、Spotifyは昇格・昇給の正式な手続きが存在しなかった。 昇格にはラインマネージャかプロダクトオーナーになるのが必要だと社員は考える様になってしまった。Spotifyにおいては、それは職種変更同然で開発者としての成長では無い。 2014年の春に "career ladder" の開発に着手した。 目標 Spotifyの文化に適合しており、社員の多様性、さまざ

    Spotify社のエンジニア評価制度
    hagino_3000
    hagino_3000 2016/10/17
    Spotifyの招待コードがなかなか降ってこないのでSpotifyのエンジニア評価制度についてまとめてしまった。
  • GCP NEXT Tokyoとbq_sushiで弊社事例の紹介をしました

    9月6日に開催されたGCP NEXT Tokyoの事例紹介セッション及びパネルディスカッションでの講演機会をいただいたので登壇してきました。一緒に出演されたメルカリ様、DeNA様はApp Engine Goをバリバリに使っている事例で、VOYAGE GROUPはBigQueryと、他社のサービスに無いプロダクトを全面にプッシュしていたのでわかりやすい話になったかなと。反省点は、資料に沿って話すのに精一杯で、まだまだ自分の言葉で話せなかった所ですかね。 そして、この事例で紹介した仕組みで動いている処理の一つが先日発表した不正クリック検出なわけで、GCPのデータセンタには足を向けて寝られません。

    GCP NEXT Tokyoとbq_sushiで弊社事例の紹介をしました
    hagino_3000
    hagino_3000 2016/09/09
    書いた
  • 不正クリック検出の歴史と実装について発表しました

    第56回データマイニング+WEB@東京で不正クリック検出について発表してきました。参加者の三割ぐらいがネット広告業界のエンジニアだったため、釈迦に説法にならないか心配でしたが、配信業態が変われば相対している問題も異なるようで良かったです。 発表資料 個人的にはパブリッシャーのブラックリストを広告業界全体で共有するくらいの事はやっても良いのでは、と思っています。 今は圧倒的に防御側が利用できる情報が少なく不利な状況にあります。(そして自分が楽をしたい) あとはつい先日、CAリワードから「DNN+オンライン学習で不正検出してます」というプレスが発表されて、どうやっているんだろうと気になってしょうがないのですが、CAの人に会える機会が無くもやもやとしております。

    不正クリック検出の歴史と実装について発表しました
    hagino_3000
    hagino_3000 2016/09/05
    書いた
  • [論文] Combating online fraud attacks in mobile-based advertising (2016) 読んだ

    hagino_3000
    hagino_3000 2016/08/17
    配信システム側の異常検知を掻い潜る巧なテクニックが載っているかと思いきや、至ってシンプルな実装だった