ブックマーク / hagino3000.blogspot.com (8)

  • Data validation for machine learning 読んだ

    Breck, Eric, et al. "Data validation for machine learning." Conference on Systems and Machine Learning (SysML). https://mlsys.org/Conferences/2019/doc/2019/167.pdf . 2019. 読み手のコンテキスト現職で機械学習予測モデルをプロダクトに投入する様になって3年程経った。そうもなると開発時に想定していた訓練データの分布と現状の分布が乖離して、予測の動作不良を引き起すケースがしばしば見られる様になった。明らかな予測の不具合として目立っていなくとも性能が落ちている部分はもっとあるはずで、これに早く気づいて対応したいモチベーションがある。かつ運用専任メンバーはいないので、できるだけ運用は手を抜きたい。概要著者らはData Validat

    Data validation for machine learning 読んだ
  • 『効果検証入門』がアプリケーション開発エンジニアにとって得る物が多い本だった

    読みました。アプリケーション開発エンジニア視点で読んで同僚に勧められる素晴しい内容でした。稿はエンジニア視点のレビューになります。 効果検証入門〜正しい比較のための因果推論/計量経済学の基礎 技術評論社 (2019/1/18) 安井 翔太 (著), 株式会社ホクソエム (監修) Kindle版/紙版両方あり 目次と構成 序 嘘っぱちの効果とそれを見抜けないデータ分析 1章 セレクションバイアスとRCT 2章 介入効果を測るための回帰分析 3章 傾向スコアを用いた分析 4章 差分の差分法(DID)とCausalImpact 5章 回帰不連続デザイン(RDD) 付録 RとRStudioの基礎 終 因果推論をビジネスにするために まず効果検証とは何かという導入と共にビジネスの現場でありがちな誤りのある検証について解説があります。この誤りの原因となるセレクションバイアスと理想的な比較方法であるラ

    『効果検証入門』がアプリケーション開発エンジニアにとって得る物が多い本だった
  • 「戦略的データサイエンス入門」がOJTの参考書として良さそうだった

    配属された新人氏に勧められるか確認すべくあらためて読み直した。データサイエンスのビジネス適用という主題で様々なトピックに触れているが自分は次の3点に注目した。 ビジネス課題をどのようにデータサイエンスの手法で解決するか、どのように対応方法がわかっているサブタスクへ分解するかのアプローチ モデル評価の方法 データサイエンス組織の運用・育成 感想はサービス開発現場のソフトウェアエンジニアとしてのものです。まずは書籍の基情報と目次。 戦略的データサイエンス入門 ―― ビジネスに活かすコンセプトとテクニック オライリー・ジャパン Foster Provost、Tom Fawcett 著、竹田 正和 監訳、古畠 敦、瀬戸山 雅人、大木 嘉人、藤野 賢祐、宗定 洋平、西谷 雅史、砂子 一徳、市川 正和、佐藤 正士 訳 O'reilly,  Amazon 原著: Data Science for Bu

    「戦略的データサイエンス入門」がOJTの参考書として良さそうだった
  • エンジニアキャリア15年のふりかえり

    pyspa Advent Calendar 2018の25日目の記事です。 2018年は体を壊して停滞の年でした。タイピングで腕に痛みが生じる状態が続き、生産性はガタ落ちした上に通院に時間を取られて何もできませんでした。潔く今年の話題は諦めて、今までのソフトウェアエンジニアのキャリアを振りかえります。 1行で書くと大学で生物やってSIerに入って何回か転職して機械学習エンジニアです。 就職 2002年、私は研究の道に進む気は無く就職活動をしていました。就職氷河期*1と呼ばれた時期でさらに「理系なのに就職先が無い」と言われる生物学部生だったので学部不問の求人をあたっていました。さて、学部不問の新卒求人と言えばSIerです。あらゆる人材を受けいれているだけあってすんなり内定が出ました。インターネット界隈では常にDisられる存在ですが情報システム開発の現場に潜り込む機会を与えてくれた点には感謝し

    エンジニアキャリア15年のふりかえり
  • 何故予測が当たるだけではマズいのか、因果と機械学習

    KDD2018の感想です。AdKDDやネット広告方面は職場のBlogに書くので、こちらは他の話を。今年は因果推論のチュートリアルが超満員だったり、予測モデルの差別、解釈性と説明性「interpretable and explainable machine learning models」が注目されたりと単に予測するのでは無く運用課題の話が増えたのが印象に残っています。 リスク予測とインセンティブデザイン 上の写真はDavid Hand氏による講演「Data Science for Financial Applications」の一場面です。自動車保険の保険料が女性に比べて男性が高い事に抵抗して行政上の性別を変更した男性*3の例が紹介されています (NEW YORK POSTの記事)。 事故を起す確率が高いと予測された顧客に高い保険料を課すのは自然なアイデアです。しかし事故発生確率と因果があ

    何故予測が当たるだけではマズいのか、因果と機械学習
  • オライリーから「仕事ではじめる機械学習」という本を出しました

    オライリーから「仕事ではじめる機械学習」というを出しました。技術書典2で頒布した同人誌がベースで引き続き @chezou, @tokoroten 両氏と共著です。実務者向けの内容で対象読者は情報システム開発現場のエンジニアです。 O'Reilly Japan - 仕事ではじめる機械学習 https://www.oreilly.co.jp/books/9784873118215/ 私は同人誌版で「ゲームの試合結果データのマイニング」の章を書きましたが、今回はより実務的な内容として効果検証について書いています。主に仮説検定と因果効果推定です。内容はChezouさんの告知を参照していただくとして、補足とバックグラウンドを紹介します。 お前だれよ インターネット広告配信システムの配信ロジックの開発をしています。2015年まではデータを集める所から分析基盤の構築を経てBIツールの導入、バッチ処理環

    オライリーから「仕事ではじめる機械学習」という本を出しました
  • Spotify社のエンジニア評価制度

    Spotifyが日に上陸しましたね。現在はアプリをインストールしてもすぐにサービスが利用できない様子、その隙に彼等の技術職評価制度についてのブログエントリを読みます。 ブログエントリは3部作になっており、技術職のキャリアパスフレームワークを作ったモチベーションに始まり、そこから得た物まで纏まっています。 印象に残った箇所 キャリアパスフレームワークをいつ作るか 会社の初期の頃にはキャリアパスフレームワークは不要である。しかし8年間、Spotifyは昇格・昇給の正式な手続きが存在しなかった。 昇格にはラインマネージャかプロダクトオーナーになるのが必要だと社員は考える様になってしまった。Spotifyにおいては、それは職種変更同然で開発者としての成長では無い。 2014年の春に "career ladder" の開発に着手した。 目標 Spotifyの文化に適合しており、社員の多様性、さまざ

    Spotify社のエンジニア評価制度
  • 弱くてニューゲームしてアドテクエンジニアになりました

    近況。2015年からアドネットワークのデータサイエンスチームにおります。前の部署ではメディア寄りの所でモバイルアプリの開発をしていたので、ほぼ転職に近い状態です。アドネットワークなにそれという方向けの説明としては、広告主と広告枠をまとめていい感じにディスプレイ広告を配信するシステムだと思ってもらえれば。 データ分析や広告配信アルゴリズムの改良というアプローチでアドネットワークの収益改善に取り組むのがミッションです。会社ブログにMortal Multi-Armed Banditsの記事を書いた頃は多腕バンディットアルゴリズムの調査や実装をしていました。 データサイエンスといっても、いきなり機械学習を使った仕組みをプロダクションに投入できるかというと全くそんな事は無く、ログの収集と解析基盤を構築する所からでした。まっさらなAWSアカウントでCloudFormationテンプレートを書いて、VP

    弱くてニューゲームしてアドテクエンジニアになりました
  • 1