サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
掃除・片付け
hagino3000.blogspot.com
読んだので感想を書きます。「手元のデータに当てはまりの良い予測モデルを本番適用してもビジネス的に良い結果が得られない」という現場で頻発する課題に対して明快なアプローチと手順を示しており、機械学習がワークするために必要な要素がクリアになりました。 施策デザインのための機械学習入門〜データ分析技術のビジネス活用における正しい考え方 技術評論社 (2021/7/30) 齋藤 優太 (著), 安井 翔太 (著), 株式会社ホクソエム (監修) Kindle版/紙版両方あり 目次と構成 はじめに1章 機械学習実践のためのフレームワーク2章 機械学習実践のための基礎技術3章 Explicit Feedbackを用いた推薦システム構築の実践4章 Implicit Feedbackを用いた推薦システムの構築5章 因果効果を考慮したランキングシステムの構築付録A 演習問題感想著者はまず1章で機械学習の実践で
第2版がでました。 仕事ではじめる機械学習 第2版 オライリー・ジャパン (2021年04月) 有賀 康顕、中山 心太、西林 孝 著 電子版版/紙版両方あり 私は7章の「効果検証」と13章の「オンライン広告における機械学習」を執筆しました。12章は書き下し新章です。既に発売からは時間が経っているのでこの2つの章の裏話というか思想について解説します。 PoC貧乏という言葉があるように機械学習を用いてビジネス価値を生む施策は失敗しがちなことが知られてきました。前提として本書はその様な失敗しやすい施策をできるだけ成功に近づけるにはどうしたら良いかを広く扱っています。 ビジネス価値を定義する予測を当ててどんな価値を生みたいのかを定義しないと開発は始まりません。13章では広告配信事業者の顧客である広告主の効用を選びました。オンライン広告ではオークションによる広告枠の売買が行なわれます。広告主は財の買
Breck, Eric, et al. "Data validation for machine learning." Conference on Systems and Machine Learning (SysML). https://mlsys.org/Conferences/2019/doc/2019/167.pdf . 2019. 読み手のコンテキスト現職で機械学習予測モデルをプロダクトに投入する様になって3年程経った。そうもなると開発時に想定していた訓練データの分布と現状の分布が乖離して、予測の動作不良を引き起すケースがしばしば見られる様になった。明らかな予測の不具合として目立っていなくとも性能が落ちている部分はもっとあるはずで、これに早く気づいて対応したいモチベーションがある。かつ運用専任メンバーはいないので、できるだけ運用は手を抜きたい。概要著者らはData Validat
読みました。アプリケーション開発エンジニア視点で読んで同僚に勧められる素晴しい内容でした。本稿はエンジニア視点のレビューになります。 効果検証入門〜正しい比較のための因果推論/計量経済学の基礎 技術評論社 (2019/1/18) 安井 翔太 (著), 株式会社ホクソエム (監修) Kindle版/紙版両方あり 目次と構成 序 嘘っぱちの効果とそれを見抜けないデータ分析 1章 セレクションバイアスとRCT 2章 介入効果を測るための回帰分析 3章 傾向スコアを用いた分析 4章 差分の差分法(DID)とCausalImpact 5章 回帰不連続デザイン(RDD) 付録 RとRStudioの基礎 終 因果推論をビジネスにするために まず効果検証とは何かという導入と共にビジネスの現場でありがちな誤りのある検証について解説があります。この誤りの原因となるセレクションバイアスと理想的な比較方法であるラ
こんにちはhagino3000です。この記事はpyspa Advent Calendar 2019の17日目です。 今年は新しい挑戦としてコントラバスとJAZZを始めました。コントラバスはオーケストラの右端で弾かれる大きな楽器です、和製英語でウッドベースと呼ばれたりもします。JAZZは全く聴いてこなかったので完全に未知の領域です。この分野は素人なのです、本当に。 普段は職場でゲーム音楽のバンドアンサンブルを演っているのですが、Super Mario Odyssayの都市の国のテーマのウォーキングベースを弾きたくなったのがきっかけでした。新しい楽器を始めるのは20年ぶりなのもあり、練習や普段の取り組み方について改めて考え直しました。ソフトウェアエンジニアとしての訓練方法と似た部分もあり、多くの気付きがありました。 楽器スクールに通う ビギナー段階において人から習う事の効率の良さは業務で身に染
担当した3daysインターンシッププログラムが無事に終ったので、自分が何を考えていたかをまとめます。いわゆる「機械学習エンジニア」向けのインターンです。 https://voyagegroup.com/internship/adventure/ 背景 期間3日でやりたいと打診を受けた時に真っ先に思いついたのはコンペ形式のプログラムでした。しかしKaggleを筆頭に実際のビジネスで発生したデータを使ったEDAおよび機械学習予測モデルの開発ができる機会は今やいくらでもあるため、Kaggleそのままの形式では目新しさに欠ける。さらに実際の開発業務では求めた予測値を使って意思決定を自動化する所までが求められるため、予測器を作って精度を見て終りというのは片手落ちとなってしまう。よって、求めた予測値を利用して意思決定を行なうアプリケーションを実装してビジネス指標が出力として得られる部分までを範囲としま
配属された新人氏に勧められるか確認すべくあらためて読み直した。データサイエンスのビジネス適用という主題で様々なトピックに触れているが自分は次の3点に注目した。 ビジネス課題をどのようにデータサイエンスの手法で解決するか、どのように対応方法がわかっているサブタスクへ分解するかのアプローチ モデル評価の方法 データサイエンス組織の運用・育成 感想はサービス開発現場のソフトウェアエンジニアとしてのものです。まずは書籍の基本情報と目次。 戦略的データサイエンス入門 ―― ビジネスに活かすコンセプトとテクニック オライリー・ジャパン Foster Provost、Tom Fawcett 著、竹田 正和 監訳、古畠 敦、瀬戸山 雅人、大木 嘉人、藤野 賢祐、宗定 洋平、西谷 雅史、砂子 一徳、市川 正和、佐藤 正士 訳 O'reilly, Amazon 原著: Data Science for Bu
読んだので感想を書きます。ホクソエムの皆様による翻訳です。 機械学習のための特徴量エンジニアリング ――その原理とPythonによる実践 Alice Zheng (著), Amanda Casari (著), 株式会社ホクソエム (翻訳) 電子版は O'reilly Japanのサイトで購入できます。 感想 あたりまえの事をあたりまえにやれるレベルまでスッと引き上げてくれる感じ。画像データの章は飛ばして読んだのですが、ScailngやOne-Hot-Encodingといった頻出テクニックは一通り書いてあるので、これから機械学習やるという人には良さそう。手法の紹介だけでなく、One-Hot-Encodingは冗長表現なので係数が一意に定まらなくなる話やリーク(leakage)の話があるのは親切。 文章による解説とPythonコードが併記されているのは嬉しい。そして原著のコードで非効率な所は容
近くで開催していたので聴講に。 日本オペレーションズ・リサーチ学会2019年春季研究発表会 http://www.orsj.or.jp/~nc2019s/index.php/program/ 何故このタイミングでORの学会かと言えば、広告配信サービスの現場でエンジニアやってると因果推論も機械学習も組合せ最適化もやらなきゃいけない状態で。最近だと特に最適化に時間を多く使っているのでリサーチの動向を見たくて参加してきた。ちなみにORの事は良く知らないので滅茶苦茶な事を書いているかもしれない。 全体の感想 招待公演はどれも興味深く、製造・インフラ・輸送業と共に進歩してきたORの歴史の厚みを感じた。カーマーカー法が発表されてから主双対内点法へ至る話や演算子オーバーロード方式の自動微分が最適化ソフトウェアに与えたインパクトといった自分でも知ってる様な伝説級のエピソードについて当事者から聴けたのはわく
ネット広告の因果効果推定について調べた時に読んだeBay*1の検索連動広告*2の因果効果推定についての論文が面白かったのでメモ。検索連動広告経由の流入のうち広告を出稿しなくとも得られた流入、つまり他の経路で流入したであろう分を差し引いた量(causal effectiveness of paid search ads)を推定しています。 Blake, Thomas, Chris Nosko, and Steven Tadelis. "Consumer heterogeneity and paid search effectiveness: A large‐scale field experiment." Econometrica 83.1 (2015): 155-174. https://www.nber.org/papers/w20171 要約 eBayはブランドキーワードとノンブランド
pyspa Advent Calendar 2018の25日目の記事です。 2018年は体を壊して停滞の年でした。タイピングで腕に痛みが生じる状態が続き、生産性はガタ落ちした上に通院に時間を取られて何もできませんでした。潔く今年の話題は諦めて、今までのソフトウェアエンジニアのキャリアを振りかえります。 1行で書くと大学で生物やってSIerに入って何回か転職して機械学習エンジニアです。 就職 2002年、私は研究の道に進む気は無く就職活動をしていました。就職氷河期*1と呼ばれた時期でさらに「理系なのに就職先が無い」と言われる生物学部生だったので学部不問の求人をあたっていました。さて、学部不問の新卒求人と言えばSIerです。あらゆる人材を受けいれているだけあってすんなり内定が出ました。インターネット界隈では常にDisられる存在ですが情報システム開発の現場に潜り込む機会を与えてくれた点には感謝し
IBISは機械学習の理論寄りのワークショップです。今年で4回目の参加でした。 IBIS2018 | 第21回情報論的学習理論ワークショップ, 2018.11.4〜7, 札幌 http://ibisml.org/ibis2018/ そして感想を書こうと思った矢先に次のyokoiさんのツイートが流れてきて完全に同意。 IBIS、「最近こんなことを考えていて…」とプロの皆さまに雑に議論を持ちかけるだけでスーパー有益情報がゼロ秒で返ってくる神イベントなので、機械学習のユーザー側の領域に居る各位もどんどん参加すると良いと思います(ダイマ) — Sho Yokoi (@sho_yokoi) November 6, 2018 私はアプリケーション側の人間です。そして解きたい問題のサーベイをしても同じ設定の文献が見つからない事がよくある。サーベイの仕方が悪いのか、そもそも研究対象になっていないのか判断がし
KDD2018の感想です。AdKDDやネット広告方面は職場のBlogに書くので、こちらは他の話を。今年は因果推論のチュートリアルが超満員だったり、予測モデルの差別、解釈性と説明性「interpretable and explainable machine learning models」が注目されたりと単に予測するのでは無く運用課題の話が増えたのが印象に残っています。 リスク予測とインセンティブデザイン 上の写真はDavid Hand氏による講演「Data Science for Financial Applications」の一場面です。自動車保険の保険料が女性に比べて男性が高い事に抵抗して行政上の性別を変更した男性*3の例が紹介されています (NEW YORK POSTの記事)。 事故を起す確率が高いと予測された顧客に高い保険料を課すのは自然なアイデアです。しかし事故発生確率と因果があ
ネット広告配信サービスのMLシステムをどのように作って運用しているかの話をしました。メルカリさんの発表が組織の課題を解決していく話になっているのに対して、私のは個人で好き勝手にやっていく話で非常にカジュアルだったと思います。チームの規模が違いますからね。 スライド: ネット広告配信サービスにおけるMLシステムの実装と運用 Machine Learning Casual Talks #5 https://mlct.connpass.com/event/88797/ 発表の他には雑談で「GBDTの推論処理をWebサーバーに組みこむのはどうするのがいいか」なんて話が気軽にできたり、非常に楽しめました。 会場のメルカリ社は初訪問、人材のブラックホールなだけあって元同僚にも遭遇。関係無いけどメルカリ社からは、eBayが出してるような実験経済系の論文が出てくると面白いかなと期待しております。
改めて発表内容に目を通し直したのでまとめます。 KDD2017 2日目のWorkshop Dayはネット広告分野のワークショップであるAdKDD & TargetAd 2017に参加していました。AdExchange, DSP, Advertiser, Publisherと様々な立場での課題と解決策が聞けて面白かった。ペーパーと発表スライド、動画は以下のサイトから辿れます。 AdKDD & TargetAd 2017 https://adkdd17.wixsite.com/adkddtargetad2017/accepted-papers Paper: Optimal Reserve Price for Online Ads Trading Based on Inventory Identification AdExchangeの立場でRTBのReserve Priceの最適化 DSPが高
オライリーから「仕事ではじめる機械学習」という本を出しました。技術書典2で頒布した同人誌がベースで引き続き @chezou, @tokoroten 両氏と共著です。実務者向けの内容で対象読者は情報システム開発現場のエンジニアです。 O'Reilly Japan - 仕事ではじめる機械学習 https://www.oreilly.co.jp/books/9784873118215/ 私は同人誌版で「ゲームの試合結果データのマイニング」の章を書きましたが、今回はより実務的な内容として効果検証について書いています。主に仮説検定と因果効果推定です。内容はChezouさんの告知を参照していただくとして、補足とバックグラウンドを紹介します。 お前だれよ インターネット広告配信システムの配信ロジックの開発をしています。2015年まではデータを集める所から分析基盤の構築を経てBIツールの導入、バッチ処理環
データマイニングの国際会議であるKDDに参加してきました。まずは1日目のチュートリアルの感想です。 From Theory to Data Product: Applying Data Science Methods to Effect Business Change. http://www.t4g.com/kdd2017/ ビジネス現場におけるデータ分析プロジェクトをいかに回すかといったテーマ。T4Gというカナダのコンサルティング企業が実際に使っているフレームワークに沿った内容で、次の3部構成。 プロジェクトの初動に何をすべきか。業界とトップダウン or ボトムアップで何が変わるかのケーススタディ 具体的なアクション導き出すための「Right Question」 アジャイルプロセスを応用した意思決定 講義に加えてそれぞれの課題が渡されてグループディスカッションを行なった。どちらかといえば
順序構造上の情報幾何的解析 大阪大学 杉山麿人 資料: http://mahito.info/files/Sugiyama_IBIS2016.pdf Posets = 半順序構造はいろんな所に出てくる 例えばベキ集合 (Power Set) パターンマイニングでは Frequencyをよく使う、何回出現したか。空集合は1。和は1を越える Probabilityも考えられる。空集合はゼロ。和は1 FrequencyとProbabilityの関係は、確率の和でFrequencyが出てくる log p(X) = Σζ(s, x)θ(s) η(x) = Σ_{s∈S}{ ζ(x, s)p(s) } = Σ_{S≧X} {p(s)} ゼータ関数 ζ(s, x) 1 if s ≦ x else 0 構造上におけるアイテム毎の確率分布を考える事で、ベキ集合の全てが揃っていないデータの解析が可能になる。
『バンディット問題の理論とアルゴリズム』本の,報酬がなんらかの特徴の線形モデルによって表現される場合に使える線形バンディットが前から気になっていたので輪読会で発表担当をするなど. スライド アルゴリズムの実装と人工データによる実験 LinUCBとThompson Sampling,報酬が正規分布のケース ロジスティック回帰モデル上のバンディット,報酬が二値のケース 感想 行動(腕)毎の報酬を推定するのでは無く,報酬モデルのパラメータを推定するという方策.妥当なモデルが作れたら実際に使えそうな感触. 実装は一発書きおろしで検算をしていないが,一応それっぽく動いた.ラプラス近似の処理が重いので勾配ベクトルとヘッセ行列の計算過程はキャッシュしておかないとつらい. LinUCBかThompson Samplingかどちらを使うかというと,報酬が同期で観測できない広告配信は後者一択で,報酬が二値の場
Spotifyが日本に上陸しましたね。現在はアプリをインストールしてもすぐにサービスが利用できない様子、その隙に彼等の技術職評価制度についてのブログエントリを読みます。 ブログエントリは3部作になっており、技術職のキャリアパスフレームワークを作ったモチベーションに始まり、そこから得た物まで纏まっています。 印象に残った箇所 キャリアパスフレームワークをいつ作るか 会社の初期の頃にはキャリアパスフレームワークは不要である。しかし8年間、Spotifyは昇格・昇給の正式な手続きが存在しなかった。 昇格にはラインマネージャかプロダクトオーナーになるのが必要だと社員は考える様になってしまった。Spotifyにおいては、それは職種変更同然で開発者としての成長では無い。 2014年の春に "career ladder" の開発に着手した。 目標 Spotifyの文化に適合しており、社員の多様性、さまざ
9月6日に開催されたGCP NEXT Tokyoの事例紹介セッション及びパネルディスカッションでの講演機会をいただいたので登壇してきました。一緒に出演されたメルカリ様、DeNA様はApp Engine Goをバリバリに使っている事例で、VOYAGE GROUPはBigQueryと、他社のサービスに無いプロダクトを全面にプッシュしていたのでわかりやすい話になったかなと。反省点は、資料に沿って話すのに精一杯で、まだまだ自分の言葉で話せなかった所ですかね。 そして、この事例で紹介した仕組みで動いている処理の一つが先日発表した不正クリック検出なわけで、GCPのデータセンタには足を向けて寝られません。
第56回データマイニング+WEB@東京で不正クリック検出について発表してきました。参加者の三割ぐらいがネット広告業界のエンジニアだったため、釈迦に説法にならないか心配でしたが、配信業態が変われば相対している問題も異なるようで良かったです。 発表資料 個人的にはパブリッシャーのブラックリストを広告業界全体で共有するくらいの事はやっても良いのでは、と思っています。 今は圧倒的に防御側が利用できる情報が少なく不利な状況にあります。(そして自分が楽をしたい) あとはつい先日、CAリワードから「DNN+オンライン学習で不正検出してます」というプレスが発表されて、どうやっているんだろうと気になってしょうがないのですが、CAの人に会える機会が無くもやもやとしております。
このエントリはpyspa Advent Calendar 2015の15日目の記事です。pyspa Advent Calendarは「自分が好きなものや興味があるものをなんでもいいので書く」という事で、数年に一度あるか無いかのポエムです。 2014年冬にCannondale SYNAPSE CARBON 5を購入、弱虫ペダルで言うと手嶋先輩が乗ってる奴。そして2015年は輪行を修得した事で行動範囲が一気に拡大した。輪行とは専用の袋に自転車をバラして格納して鉄道などの交通機関に乗る技である。
PyConJP 2015に登壇してきました。PyConJPについてはライブラリの使い方についてのセッションが多く、じゃあそれを使ってどうやって金を稼いでるか、というプロダクトベースの話は少なめな印象がありました。なので自分は逆張りで仕事の話をしてきました。 といっても発表で例に出した手法は "Online Advertising" で論文を探せば出てくるメジャーな奴なので、うちだけ特殊な事をやっている訳では無いです。 発表資料
内容はアルゴリズムの紹介、パラメータチューニングとそれによる損失の変化の実験結果、オンライン広告とリコメンドエンジンへの適用例など。以降、Thompson SamplingはTSと表記。 UCBとの比較 実験ではどのパターンも、途中まではUCBと同じ損失だが試行回数がある程度増えた所でTSの損失がUCBを下回っている。腕の数が多い程、報酬の差が小さい程UCBとパフォーマンスが分かれる点は後ろにずれる。 理由は書いてないが、UCBは一旦報酬が低い事がわかった腕も定期的に引くのでこういう結果になるのだろう。TSは報酬の期待値が収束した後は良い物しか引かない。 事後確率の調節 ベータ分布のパラメータaとbについてそれぞれα∈(2, 1, 0.5, 0.25) で割った値にした実験。0.25にすると傾向として損失は下がるが、損失が増える駄目なケースも増える。腕の性能評価を早めるので、誤って評価して
今年で4回目となるNASA主催の国際ハッカソンで、今年は世界133ヶ所で行なわれた模様。地球観測衛星から得られたデータを有効活用したり、世界規模の問題解決に取り組むといったテーマが与えられた中でチームを作りハードウェアやWebサービスの開発に取り組みます。 SENSOR YOURSELF テーマを選び、屋外用の安価な高精度測位モジュールを作りました。モチベーションとしては既存の機器、例えば農機や建設機器のオプションとして売られている物があまりに高いため、高精度測位の普及が進んでいない。安価に実現可能な事と利用法を示せれば、廉価品を作るメーカーが出てきたりスマホだけで利用可能になって嬉しいのでは、という話です。農機になぜ高精度測位が必要かと言うと、例えば植えた稲を踏まないように自動運転させるためだそうで。 作りとしてはRaspberry Pi + GPS/GNSS受信機 + ケースです。ネッ
近況。2015年からアドネットワークのデータサイエンスチームにおります。前の部署ではメディア寄りの所でモバイルアプリの開発をしていたので、ほぼ転職に近い状態です。アドネットワークなにそれという方向けの説明としては、広告主と広告枠をまとめていい感じにディスプレイ広告を配信するシステムだと思ってもらえれば。 データ分析や広告配信アルゴリズムの改良というアプローチでアドネットワークの収益改善に取り組むのがミッションです。会社ブログにMortal Multi-Armed Banditsの記事を書いた頃は多腕バンディットアルゴリズムの調査や実装をしていました。 データサイエンスといっても、いきなり機械学習を使った仕組みをプロダクションに投入できるかというと全くそんな事は無く、ログの収集と解析基盤を構築する所からでした。まっさらなAWSアカウントでCloudFormationテンプレートを書いて、VP
Google Cloud StorageとBigQueryで困ったら、まずはStack Overflowに書くと良さげ GCPのサポートページを見ると、課金しないで利用できるのはドキュメントとコミュニティフォーラムとある。コミュニティフォーラムとしてGoogleグループとStack Overflowへのリンクが載っている、がGoogleグループはStack Overflowへ移行したとあり、現状機能はしていない。さらにBigQueryについてはGoogle Codeにissue trackerがある。
「データ解析のための統計モデリング入門」、もっと早くに取り組んでおけば良かった。データ分析業のアプローチに必要な観点を学べる良テキストだ。しかし本文中はRが使われているのでPythonで一通り書き直して読み進めてみる。 GLMフィッティングの際の勾配降下、確率的勾配降下法とかいろいろあったと記憶しているが、最もナイーブな実装しか書けなかった。修行が足りない。しかしPythonのstatsmodelsは今回初めて使ったが便利すぎる。
次のページ
このページを最初にブックマークしてみませんか?
『hagino3000's blog』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く