ブックマーク / tjo.hatenablog.com (33)

  • 蔓延防止等重点措置(まん防)の効果検証を「あえて」DID+TSclustによる時系列クラスタリング+CausalImpactでやってみた - 渋谷駅前で働くデータサイエンティストのブログ

    少し前の話ですが、現在COVID-19の感染が拡大している地域で実施される「蔓延防止等重点措置(まん防)」に効果があったかどうかについて、計量経済学的な観点に基づいた政策評価レポートが公開されて話題になっていました。 追記 日午前中に元のレポート自体が更新されていたようで*1、今回の記事はその更新を反映していない点悪しからずご了承ください。 で、結論はともかくその手法とアプローチについては色々と議論が起きているようです。例えば、上記のブログ記事では実際に東京都のデータで追試をしてみて、もう少し異なるやり方があるのではないかと指摘しています。 この辺は僕にとっても同様で、普段から同様のデータ分析を広告・マーケティング分野で手掛けている身としては「自分ならこうしたい」と思われるポイントが幾つかあり、折角データソースや背景となる行政措置の詳細などがレポート中で明記されているのだから、いっそ自分

    蔓延防止等重点措置(まん防)の効果検証を「あえて」DID+TSclustによる時系列クラスタリング+CausalImpactでやってみた - 渋谷駅前で働くデータサイエンティストのブログ
  • 非劣性検定(等価検定)をRで試してみる - 渋谷駅前で働くデータサイエンティストのブログ

    この記事は、以前『統計学のセンス』を読んだ時から気になっていたことを思い出したので、単にRで試してみたという備忘録です。 非劣性検定(等価検定)の話題は、書の最後にある8.3節「非劣性の検証とは?」であくまでも付録扱いとして登場します。ここでは、 統計学的検定は通常「有意差検定」といわれるが、 1) 標数を大きくすることによって「医学的に有意でない差」を「統計学的に有意」とすることができる 2) 標数を小さくすることによって「医学的に有意な差」を「統計学的に有意でない」とすることができる という欠点があることは意外と知られていない。(同書p.143) という有意差検定の問題点を指摘した上で、1980年代後半ごろから新薬審査に当たって「標準薬と同等程度の有効性」が検証できれば認可されるという流れが出てきたことで、積極的に同等性を検証するというニーズが出てきたという話題が紹介されています

    非劣性検定(等価検定)をRで試してみる - 渋谷駅前で働くデータサイエンティストのブログ
    call_me_nots
    call_me_nots 2021/06/15
    “疫学分野に詳しい知人曰くは「結局非劣性マージンΔΔ\Deltaの設定次第で結果がいかようにも変わってしまうので、そもそも非劣性検定(等価検定)は取り扱いが難しい」だそう”
  • 機械学習や統計学を「社会実装」するということ - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) 最近になって、こんな素晴らしい資料が公開されていたことを知りました。 この資料自体は著者のMoe Uchiikeさんが東大での講義に用いられたものだとのことですが、その内容の汎用性の高さから「これは全ての機械学習や統計学を実務で用いる人々が必ず読むべきドキュメント」と言っても過言ではないと思われます。 正直言ってこの資料の完成度が高過ぎるのでこんなところで僕がああだこうだ論じるまでもないと思うので、内容の詳細については皆さんご自身でまずは上記リンクから精読していただければと思います。その上で、今回の記事では「機械学習や統計学を『社会実装』する」ということがどういうことなのかについて、この資料を下敷きとした上でさらに僕自身の経験や見聞を加えて考察したことを綴ってみます。 機械学習や統計学と、社会との「ギャップ」 機械学習や統計学を、社会に「馴染ませる」

    機械学習や統計学を「社会実装」するということ - 渋谷駅前で働くデータサイエンティストのブログ
    call_me_nots
    call_me_nots 2020/07/18
    “これらの諸問題が示しているのは本質的には「現実の社会はそもそも機械学習や統計学と相容れられるようには出来ていない」ということなのだと個人的には考えています”
  • 真の正解が分からない中で最適解を求めて探索と手戻りを繰り返すことこそが、データ分析の本質である - 渋谷駅前で働くデータサイエンティストのブログ

    先日、こんな素晴らしい記事を読みました。 データ分析屋としてキャリアを積んでいる私にとってAgileの考え方はとても腑に落ちやすいものだった。そもそも、データ分析自体、繰り返しの検証をするものなのだ。 (太字原文ママ) 僕自身はソフトウェアエンジニアではないので、Waterfall / Scrum / Agileそれぞれの開発スタイルの定義や違いはたまたその実践について何か論評できる立場にはなく、エンジニアチームの現場にいたこともあるので「雰囲気ぐらいなら」おぼろげに分かっているという程度の理解レベルです。ただそれでも、この記事で提唱されている「データサイエンスはAgile」という考え方については、僕個人の経験から言っても大いに納得できるものがあります。 実は、ここ1年ぐらいデータ分析仕事をしていく中で「手戻り」「ロールバック」は是か非か?という議論を目にする機会が何度もあり、その度にこ

    真の正解が分からない中で最適解を求めて探索と手戻りを繰り返すことこそが、データ分析の本質である - 渋谷駅前で働くデータサイエンティストのブログ
    call_me_nots
    call_me_nots 2020/06/12
    “「深層学習ってやつで何か凄いことをしてみたい」から始まったデータ分析プロジェクトが、実際に使えるデータの乏しさから方向転換を余儀なくされ、最後はペルソナ別マーケティングという穏当な着地点に落ち着く”
  • 実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版) - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) この記事は以下のオススメ書籍リスト記事のアップデートです。 毎回の断り書きで恐縮ですが、この記事では「データサイエンティストや機械学習エンジニアなどデータ分析の実務の専門家として」*1機械学習や統計分析を手掛けていきたいという、主に初級ないし中級ぐらいのスキルレベルの人たちにお薦めしたい書籍を、初級向け5冊・中級向け8冊及び細かいテーマ別に11冊、それぞれ挙げていきます。スタンスとしては相変わらず「当座の最終到達点を『中級』に置いた時に最初に読んで内容をマスターしておくべき書籍」を初級に置いているので、世の中のこの手のお薦め書籍リストに比べると若干ハードな内容のものが初級向けに多いかもしれません。 後はちょっと気が早いかもしれませんが、機械学習パートに関しては「AutoML時代にあっても実務の専門家であれば知っておくべき知識」を収めた書籍を選んでおきま

    実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版) - 渋谷駅前で働くデータサイエンティストのブログ
  • 移り変わる「データサイエンティストの『常識』」について考える - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) 先日、こんな話題を見かけました。 【夏なので怖い話】 こないだ、いかにもエリートな男性と知り合ったんですよ 彼は年収1000万で飛ぶ鳥を落とす勢いのデータサイエンティストだっていうじゃないですか それでふとAICの話題を持ちかけたんです 「あー現実であまり使わない数学の話はわかりません」 …おわかりいただけただろうか?— ゆうな (@kawauSOgood) 2019年8月14日 で、悪ノリした僕はこんなアンケートをやってみたのでした。 データサイエンティストという肩書きで年収1000万円以上の高給取りが、知らなかったとしても許される項目はどれですか— TJO (@TJO_datasci) 2019年8月15日 このアンケート結果こそが、今回の記事を書こうと思ったきっかけです。ある程度知識のある方ならお分かりかと思いますが、ここで挙げた「AIC」「正則

    移り変わる「データサイエンティストの『常識』」について考える - 渋谷駅前で働くデータサイエンティストのブログ
    call_me_nots
    call_me_nots 2019/09/09
    安心する
  • 「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答 - 渋谷駅前で働くデータサイエンティストのブログ

    (Background image by Pixabay) 最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。 言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然ながら趣味嗜好がありますので、個々人が好みだと思う方を使えば良い話ではあります。 とは言え、僕自身もクソコードの羅列ながらこのブログにR & Pythonのコードを載せているということもあるので、便乗して今回の記事では僕個人の意見と感想も書いてみようと思います。いつもながらど素人の意見(特にPython業ではない)なのと、自分がメインに使っているRでもtidyverseをほとんど使わないなど割とout-of-dateな使い方をしているということもあり、読んでいておかしなところなどあればどしどしご指摘くださると有難

    「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答 - 渋谷駅前で働くデータサイエンティストのブログ
  • データサイエンティストがやらかしがちな過ちトップ10(海外記事紹介) - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) "Top 10 Statistics Mistakes Made by Data Scientists"という刺激的なタイトルの記事が出ているのをKDnuggets経由で知りました。「データサイエンティストがやらかしがちな統計学的な誤りトップ10」ということで、いかにもなあるある事例が色々載っていて面白いです。 ということで、今回はこの記事を全訳にならない範囲で抄訳して、その内容を吟味してみようと思います(直訳しても意味が取りづらい箇所が多かったためかなりの部分を抄訳ながら意訳しています:こういう訳の方が良いなどのコメントあれば是非お寄せください)。言わずもがなですが、こういう海外記事紹介をやる時はネタ切れということです、悪しからず。。。 元記事の内容 1. Not fully understand objective function(目的関数が何か

    データサイエンティストがやらかしがちな過ちトップ10(海外記事紹介) - 渋谷駅前で働くデータサイエンティストのブログ
  • 機械学習のビジネス上の価値を「効果測定」して「数値評価」する方法 - 六本木で働くデータサイエンティストのブログ - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) 気が付けば、日における第一次データサイエンティストブームから6年、人工知能ブーム開始から3年が経ったようです。意外と言っては何ですが、これまでのところ人工知能ブームも、そしてそれにブーストされた形で起こった第二次データサイエンティストブームも、まだまだ続くどころかどんどん加速していきそうな状況です。 なのですが、これだけ統計学や機械学習のような高度なデータ分析技術がビジネスの現場に浸透するようになった現在でも、なぜかあまり多く見かけないものがあります。それは「機械学習(もしくは自動化された統計分析)によるビジネス上の成果を数値として示したもの」。意外かもしれませんが、個人的な観測範囲では例えば「Deep Learningを導入したら〇〇がXX%向上した」みたいなリリースや記事を見かけることは、正直なところ思った以上に少ないように思われます。それでも第

    機械学習のビジネス上の価値を「効果測定」して「数値評価」する方法 - 六本木で働くデータサイエンティストのブログ - 渋谷駅前で働くデータサイエンティストのブログ
    call_me_nots
    call_me_nots 2019/04/15
    バンディット流行ってくるのかね
  • 『新版 統計学のセンス』は統計学を「使う」人なら必携の書 - 六本木で働くデータサイエンティストのブログ

    新版 統計学のセンス ―デザインする視点・データを見る目― (医学統計学シリーズ1) 作者:丹後 俊郎出版社/メーカー: 朝倉書店発売日: 2018/11/05メディア: 単行少し前に広告を見かけてポチってみたのがこちらの。丹後先生の著書というと『ベイジアン統計解析の実際 (医学統計学シリーズ)』をベイジアンモデリングを勉強していた際に愛読していたものですが、その丹後先生のならきっと間違いないだろうと思って読んでみたらやはり大正解でした。 ということで、以下に簡単に書評を並べておきます。なお僕は医学統計分野に関しては殆ど知識のない素人ですので、ところどころ誤読している箇所があるかもしれません。お気付きの点などあれば、是非ご指摘いただければ幸いですm(_ _)m 書の内容 1. randomness――新しい知識の創造 2. 統計学的推測の意味――無作為化の重要性 3. 研究デザイン

    『新版 統計学のセンス』は統計学を「使う」人なら必携の書 - 六本木で働くデータサイエンティストのブログ
    call_me_nots
    call_me_nots 2018/12/13
    在庫が逼迫してるっぽいので早めに購入→ https://amzn.to/2Iulfpq
  • NNが心理学と生理学から離れていった瞬間:Back propagationに関するNature論文(1986)の意義を考える - 渋谷駅前で働くデータサイエンティストのブログ

    (Fig. 1 from Rumelhart, Hinton & Williams, Nature, 1986) これはちょっとした小ネタです。僕自身はニューラルネットワーク (Neural Network, NN)の学術的専門家でもなければ況してやNNの研究史家でもないので、たかだか僕自身がかつて脳の研究者だった頃に把握していた事由に基づいて、極めていい加減な私見を書いているに過ぎないことを予めお断りしておきます。よって、この辺の事情に詳しい方いらっしゃいましたら、後学のためにも是非ご遠慮なくツッコミを入れて下さると有難いですm(_ _)m 先日のことですが、@tmaeharaさんがこんなことを呟いておられました。 オリジナル論文 https://t.co/kXfu8jIat3 これです.当にただチェインルールで微分して勾配法しているだけにしか見えない…….— ™ (@tmaehara

    NNが心理学と生理学から離れていった瞬間:Back propagationに関するNature論文(1986)の意義を考える - 渋谷駅前で働くデータサイエンティストのブログ
    call_me_nots
    call_me_nots 2018/10/23
    “もはやヒトの脳の模倣を目指さなくなった”
  • 偏Granger因果で「第三者効果」を排除しつつ因果性検定してみる - 渋谷駅前で働くデータサイエンティストのブログ

    遥か古の時代、まだ自分が研究者だった頃にデータ分析に使っていた手法のひとつに偏Granger因果 (partial Granger causality) というものがありました。これはGuo et al. (2008)で提唱されたもので、当時は著者グループ提供のオリジナルMatlabツールボックスを使っていたのですが、仕事も変わりRやPythonをメインに使うようになってからは触る機会は全くなくなっていたのでした。 ところが、先日偶然その偏Granger因果について触れる機会があったので、もしかしてと思ってググってみたらR実装があることに気付きました。こちらの{FIAR}パッケージです。 とりあえずちょっと触ってみた感じでは、当時のMatlabツールボックスよりもGUIという面では弱いものの、一方でMatlabツールボックスでは未整備でユーザーが自分で書かなきゃいけなかったようなところは逆

    偏Granger因果で「第三者効果」を排除しつつ因果性検定してみる - 渋谷駅前で働くデータサイエンティストのブログ
    call_me_nots
    call_me_nots 2018/09/12
    “あらかじめZのXへの影響を考慮したXの自己予測(予測誤差分散)に対して、ZのXとYへの影響を考慮したXがその自己予測を改善するのであれば、偏Granger因果の意味でXとYとの間には因果性があると認めるというロジック”
  • 多重比較補正のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    最近になって、データ分析界隈で多重比較補正が話題に上ることが増えていると聞きまして。一方で、僕自身も何を隠そう研究者時代の専門分野が長年多重比較補正の問題に悩まされてきた分野だったこともあって、かなり若い頃から多重比較補正については色々勉強したり実践したり検討したりしてきたものでした。 ちなみに下記のリンクはその分野で広く使われている多重比較補正の方法論に重大な瑕疵があるのではないかと指摘した2年前の論文で、曰く「理論上は偽陽性(false positives)5%で済むはずのものが実際には偽陽性が最大70%に達する可能性がある」とのこと*1。 事によっては15年間に渡る40000件の研究が実は偽陽性まみれだったという可能性もあるという話で、多重比較補正って怖いんだなぁとつくづく思う次第です。 閑話休題。このように多重比較補正というのは「偽陽性」という統計データ分析においては厄介な問題と密

    多重比較補正のはなし - 渋谷駅前で働くデータサイエンティストのブログ
    call_me_nots
    call_me_nots 2018/06/13
    “研究者時代に僕が多用していたのはBonferroni補正とFDR control(つまりBH補正)でした。理由は簡単で、大体どのデータ解析ソフトウェアにもその2つは実装されていたから”
  • データ人材は日本に何人必要なのか?(2018年Q2版) - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) 最近になって以下のようなメディア記事やそれに類する報道が殊に増えているようです。 以前研究者だった身としてはこういう「これから日には〇〇万人の△△人材が必要」みたいな物言いを聞くとポスドク1万人計画の悪夢を思い出してしまう部分もありますが、そもそも論として「今後データ人材は日に何人必要なのか?」を現場のヒューマンリソースの需給状況から述べる向きは相変わらず少ないのではないかという印象が強いです。 ということで相変わらずの与太記事で恐縮ですが、自分の6年間のデータ分析業界での経験と見聞をもとに「今後データ人材は日に何人ぐらい必要なのか」を極めて主観的ながら論じてみようかと思います。いつも通り異論反論またはご指摘大歓迎ですので、コメントのある方は何がしかの方法でお寄せくださると有難いです。 まず最初に結論を 個人的な経験と見聞に基づく主観的な予想では

    データ人材は日本に何人必要なのか?(2018年Q2版) - 渋谷駅前で働くデータサイエンティストのブログ
  • 効果量(effect size)のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    統計学的検定の話を始めたら自分の勉強の方が止まらなくなってしまったので(笑)、ついでにやってみようと思います。ちなみにこの記事は前回のやたらブクマを集めた記事の続きみたいなものです。 そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 六木で働くデータサイエンティストのブログ 例えば有意ではないという結果になった時にそれが「実際に帰無仮説が真」なのか「単にサンプルサイズが小さくて検出力が足りないだけ」なのか判断せよという問題。前者なら果てしなくサンプルサイズを大きくしても有意にはならないし、後者なら今度は効果量(effect size)のことを考えなければいけません。 というように前回の記事では検出力(statistical power)と効果量(effect size)について触れたんですが、タイムリーに先日の第36回TokyoRでその辺の話をしてきたので*1、そ

    効果量(effect size)のはなし - 渋谷駅前で働くデータサイエンティストのブログ
  • ニューラルGranger因果という論文が出たらしい(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ

    3年前に因果フェスというイベントでGranger因果について専門家でもないのに講演させられるという稀有な経験をしたわけですが。 その時のイベント報告記事で、会場でのディスカッションの内容を踏まえて僕はこんなことを書いたのでした。 非線形Granger因果性検定の手順(ここでは2変量2次ラグモデルを想定する) なる2変量2次ラグモデルを機械学習的なものを含めた何かしらの方法で推定し、その誤差関数をとする。次に、がない(非線形Granger因果を与え得る時系列を伴わない)単変量2次ラグモデル を同様に推定し、その誤差関数をとする。この2つの誤差関数とを表現する学習パラメータを統合する何かしらの情報量規準 を定義し、これの有意性をブートストラップ法などを用いて検定する。 と書き換えて、モデル推定のための何かしら好都合な非線形データに対応可能な機械学習手法(脚注:ここでRNNしか思い付かない自分は

    ニューラルGranger因果という論文が出たらしい(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ
  • "All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)という格言 - 渋谷駅前で働くデータサイエンティストのブログ

    George E. P. Box - Wikipedia 統計学や機械学習の世界ではよく引用される"All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)という格言ですが、2013年に亡くなった統計学の大家George E. P. Boxの言葉だと伝わっています。Wikipediaにも別建ての記事があって、例えば Box repeated the aphorism in a paper that was published in the proceedings of a 1978 statistics workshop.[2] The paper contains a section entitled "All models are wrong but some are useful". The sec

    "All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)という格言 - 渋谷駅前で働くデータサイエンティストのブログ
    call_me_nots
    call_me_nots 2018/01/27
    “最尤推定が必要なロジスティック回帰より、最小二乗法で簡単に済む線形回帰の方が楽で良いみたいなケースも実務だとチラホラあるというのが個人的な認識”
  • 最先端と泥臭い実務の現場とのはざまで、生きる - 渋谷駅前で働くデータサイエンティストのブログ

    (Photo by Pixabay) これはただの年末ポエムです。何ひとつとして高度に技術的な話もなければ、ためになる話もありませんので予めご了承ください。 時が流れるのは早いもので、僕がインダストリーにおけるデータ分析仕事を手がけるようになってから5年目の今年もほどなく終わろうとしています。上記の記事ではその間にあった様々な出来事を振り返りましたが、今回は現在の仕事のやり方について最近感じていることを徒然なるままに書き散らしてみようかと思います。 想像を超えて遥かに進んでいく「最先端」 今の業界*1で最先端と言えば一般にはDeep Learningとか〇〇Netのことを指すことが多いですし、以前「今の状況は『俺が考えた最強のネットワーク選手権』だ」と言った通りの有様だと個人的には認識しています*2。 その意味では今年も最先端の研究開発の進化のスピードはとどまることを知らないという印象で

    最先端と泥臭い実務の現場とのはざまで、生きる - 渋谷駅前で働くデータサイエンティストのブログ
    call_me_nots
    call_me_nots 2018/01/12
    “大事なことは、まずは基礎的なモデルでこれこれのように実際の課題を解決できたというアーキテクチャ全体まで含めたグランドデザインとしての雛形を作ることなのかなと”
  • 個人的に5年間のデータ分析業界見聞録をまとめてみた - 六本木で働くデータサイエンティストのブログ

    (Photo credit: https://pixabay.com/en/data-dataset-word-data-deluge-1188512/) 人工知能ブームで世間が喧しい昨今ですが、それに伴って往年に見かけたような内容のビッグデータ論やデータサイエンティスト論や機械学習システム論が再び出回るようになってきているようで、歴史は繰り返す感を覚える今日この頃です。 ということで歴史が繰り返している感を再確認すべく、これまでのデータ分析業界の5年間を僕個人が見聞してきた範囲and/or記憶している範囲and/orサーベイできる範囲で振り返ってみようと思います。ほぼ完全に個人的にして私的なヒストリーのまとめですので、公的な用途には参照されぬよう厳にお願いいたします。。。また僕の守備範囲が「広告もしくはマーケティング」であるが故にこの2領域に偏っている点もご注意ください。特に機械学習サイ

    個人的に5年間のデータ分析業界見聞録をまとめてみた - 六本木で働くデータサイエンティストのブログ
  • データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版) - 渋谷駅前で働くデータサイエンティストのブログ

    この記事は2年前の以下の記事のアップデートです。 前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書ける」という4点を挙げたのでした。 で、2年経ったらいよいよ統計分析メインのデータサイエンティスト(物:及びその他の統計分析職)vs. 機械学習システム実装メインの機械学習エンジニアというキャリアの分岐が如実になってきた上に、各方面で技術革新・普及が進んで来たので、上記の過去記事のスキル要件のままでは対応できない状況になってきたように見受けられます。 そこで、今回の記事では「データサイエンティスト」*1「機械学習エンジニア」のそれぞれについて、現段階で僕が個人的に考える「最低限のスキル要件」をさっくり書いてみようかと思います。最初にそれらを書

    データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版) - 渋谷駅前で働くデータサイエンティストのブログ
    call_me_nots
    call_me_nots 2017/06/27
    “「Chainer使ってたけどscikit-learnって簡単でびっくりした」っていうこっちがびっくりする人がいて、とにかくなんでもかんでもDeep Learningすればいいだろって人が結構いる”