ブックマーク / tjo.hatenablog.com (29)

  • 機械学習を使うデータサイエンスの仕事に比して、統計学を使うデータサイエンスの仕事が産業界に少ない理由 - 渋谷駅前で働くデータサイエンティストのブログ

    近年のデータサイエンティスト界隈では、僕が以前スキル要件記事でも提唱した通りの「ソフトウェアエンジニアの延長としての機械学習エンジニア」(機械学習メイン)と「アナリストの延長としてのデータサイエンティスト」(統計学メイン)とにキャリアもポジションもカルチャーも分化するようになって久しい印象があるのですが、世の中に溢れる求人情報や各種SNSで流れてくる巷の声を見聞きする限りでは、どう見ても前者の方が数が多い上に需要も旺盛なんですよね。 発展というよりMLを使ったプロダクトでお金稼いでいる会社があって、統計学やエコノメベースでプロダクトを作る事業会社がないだけだと思います。統計学とか示唆出しの手段なので、ブラスでお金稼ぐ感覚がないと居場所がないだけかなと。 https://t.co/PCDQHiIvlJ— be (@behemuhemulove) 2024年6月11日 で、畏友*1beさんがこ

    機械学習を使うデータサイエンスの仕事に比して、統計学を使うデータサイエンスの仕事が産業界に少ない理由 - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2024/06/22
  • どのような場面で多重比較補正が必要なのか - 渋谷駅前で働くデータサイエンティストのブログ

    先日のことですが、Querie*1で以下のような質疑がありました。 恐らくですが、これは僕が懇意にさせていただいているマクリン謙一郎さんがコメントしていた件に関連する話題だと思われます。 たしかにこれではないからHARKingとはちょっと違うと思うんだけど、実際は「同じストーリーを別のデータで何度も解析」してるわけだから多重検定になる。被説明変数は一緒だから複数の説明変数を試して有意になったやつを報告するのと構造は一緒。 https://t.co/WjnK5MnKcJ— Ken McAlinn (@kenmcalinn) 2024年3月11日 分かる人が見れば「典型的な多重比較補正問題だ」と分かる話なんですが、普段から意識していないと意外と見落とされがちなポイントだと思うんですよね。ということで、最近ネタ切れなのを糊塗する目的も兼ねて今回の記事では簡単にこの話題を改めてサクッと深掘ってみよ

    どのような場面で多重比較補正が必要なのか - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2024/03/20
    データに適合するようなモデルがあって、新たなデータをモデルで説明できることを確認していたらOKじゃないか・・・?
  • 「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ

    今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。 実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング

    「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2023/12/21
    白黒つくと思ってる人のほうが多そう
  • シュートを外した後で、ゴールポストを動かして「入っていた」ということにしてはいけない - 渋谷駅前で働くデータサイエンティストのブログ

    先日こんなことをコメントしたら、思ったよりも反応が多くて「皆さん同じことを思っていたのかな」と感じたのでした。 シュートを外した後でゴールポストを動かして入ったことにするのはダメですよ / 「当初は有意差が認められなかったが、毛乳頭細胞が少ないと思われる被験者を除いて追加解析したころ、塗布24週後の毛髪密度は「含む」を使った被験者のほうが統計学的に有意に上昇したという」 https://t.co/K91NElUAgN— TJO (@TJO_datasci) 2023年6月6日 要はこれは再現性問題の典型例だという話なんですが、近年あれだけ再現性問題が騒がれた割には意外と未だに世間的にはあまり広く知られていないのだろうか、という気もしています。 このブログでも再現性問題については一通り論じたことがありますが、ちょうど良い機会なので改めてこの手のQRPs (Questionable Resea

    シュートを外した後で、ゴールポストを動かして「入っていた」ということにしてはいけない - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2023/06/09
    これはひどい解析だった
  • K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文 - 渋谷駅前で働くデータサイエンティストのブログ

    クラスタリングに用いられるK-meansのクラスタ数決定方法については長く議論されてきた歴史があり、このブログでも以前ちょろっと取り上げたことがあります。 で、Twitterを眺めていたらタイムラインに面白い論文が流れてきました。それがこちらです。 タイトルを読んで字の如く「K-meansのクラスタ数を決めるのにエルボー法を使うのはやめろ」という論文なんですね。全体で7ページと非常にコンパクトで読みやすい内容なので、簡単にまとめて紹介してみようと思います。なおいつもながらですが、僕の技術的理解が不足しているが故の誤りなどが混じる可能性がありますので、その際はコメント欄などでご指摘くださると幸いです。 あるtoy dataに対するK-meansの結果 目検に頼らないエルボー法について考える ならば、既存のクラスタ数決定法の中では何を選ぶべきか そもそもK-meansが有効でないケースもあるこ

    K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文 - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2023/01/27
  • 『ビッグデータ分析・活用のためのSQLレシピ』はデータ分析でSQLクエリを叩く人なら必読の黒魔術大全 - 渋谷駅前で働くデータサイエンティストのブログ

    こちらのをご恵贈いただきました。 ビッグデータ分析・活用のためのSQLレシピ 作者: 加嵜長門,田宮直人出版社/メーカー: マイナビ出版発売日: 2017/03/27メディア: Kindle版この商品を含むブログを見る 一般的なSQLというのはDB管理の一環としてのインフラエンジニア向けの技術書であることが多く、意外にもデータ分析を主目的としたSQLの使い方やクエリの工夫の仕方について書かれたというのはあまり多くないんですよね。故に、多くのデータ分析者は難解なテーマを実現するクエリを書きたくても参考になる資料が乏しく、途方に暮れるわけです。僕もHive / Redshift / BigQueryのクエリを書きながら「こんな分析がしたいんだけど、それを実現できるクエリってないよなぁ。。。」と何度天を仰いだことか。 そんなところに突然降って湧いてきたのがこちらの新刊書。もう目次を見ただ

    『ビッグデータ分析・活用のためのSQLレシピ』はデータ分析でSQLクエリを叩く人なら必読の黒魔術大全 - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2023/01/02
  • 今さら人に聞けない「重回帰分析の各手法の使い分け」 - 渋谷駅前で働くデータサイエンティストのブログ

    (※※※続編記事書きました→「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ) 今ちょうどadtech tokyo 2013の会期中で、職場からも近い&会社から行ってこいという指示が出たということで僕も色々セッションを聞いたり企業ブースのお話を聞いたりしてる*1ところです。 ところで、いくつかのセッションの中でキーワードとして「重回帰分析」という言葉が出てきてました。ま、それ自体はこのブログでもRによるデータ分析絡みで頻出だし、ぶっちゃけありふれた手法と言って良いでしょう。やりようによっては普通にExcelでもできますし、それだけ人口に膾炙していると言って良いのかもですね。 ただし。意外にも内部のパラメータというか細かい手法の分岐というか、それこそ普通の線形モデルvs.一般化線形モデル(バリエーション多数)があることを無視して漫然と重回帰分析をや

    今さら人に聞けない「重回帰分析の各手法の使い分け」 - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2022/12/18
  • 「データ分析の民主化」の在り方を、「社員全員Excel経営」が「社員全員データサイエンス経営」へと進化していった事例に見る - 渋谷駅前で働くデータサイエンティストのブログ

    以前こんな記事を書いたことがあります。 「社員全員Excel経営」で名高い、ワークマン社のサクセスストーリーを論評したものです。2012年にCIOに就任した土屋哲雄常務のリーダーシップのもと、取引データの完全電子化を皮切りに「全社員がExcelを使いこなして数字とデータで経営する」戦略へと移行し、社内のExcelデータ分析資格を一定以上取得しないと管理職に昇進できないとか、はたまた幹部クラスの企画・経営会議ではデータに基づかない議論や提案は相手にすらされないとか、「Excelを社員全員が使えるようになるだけでもここまで企業カルチャーは変わり得るのか」という事例のオンパレードで、関連記事や書籍を読んでいて舌を巻いたのを覚えています。まさしく「ワークマンのすごいデータ活用」だったのです。 一方、個人的に強く印象を受けたのが土屋常務が様々なところでコメントしていた「我が社には突出したデータサイエ

    「データ分析の民主化」の在り方を、「社員全員Excel経営」が「社員全員データサイエンス経営」へと進化していった事例に見る - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2022/12/11
  • 『標準ベイズ統計学』はベイズ統計学をきちんと基礎から日本語で学びたいという人にとって必携の一冊 - 渋谷駅前で働くデータサイエンティストのブログ

    標準 ベイズ統計学 朝倉書店Amazon 発刊当時に話題になっていた『標準ベイズ統計学』。実は訳者のお一人、菅澤翔之助さんからオフィス宛てでご恵贈いただいていたのですが、親父の没後処理やら自分のDVTやら実家の片付けやらで全く手が回らずオフィスに置いたままにしてしまっていたのでした。で、この度改めて拝読してみたら「何故もっと早く読まなかったんだ」と後悔するくらいあまりにも内容が素晴らしかったので、遅まきながら書評記事を書こうと思い立った次第です。 ベイズ統計学というと、殆ど詳しくない人だと「ベイズの定理以外に何があるの?」という印象ぐらいしかないかもしれませんし、一方でとりあえず技法としてやり方だけ覚えてしまった人だと「とりあえずMCMC回せばいいんだよね?」みたいな雑な理解になってしまうかもしれません。いずれにせよこれまで邦書ではベイズ統計学というと超初歩か実装重視かの二択が多かったせい

    『標準ベイズ統計学』はベイズ統計学をきちんと基礎から日本語で学びたいという人にとって必携の一冊 - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2022/11/21
  • 新型コロナウイルス感染症の「真の」感染拡大状況を検索トレンドから何となく推測してみた - 渋谷駅前で働くデータサイエンティストのブログ

    新型コロナウイルス感染症(COVID-19)のパンデミックに収まる気配が全く見られず、この記事を書いている2022年8月9日時点でも日はオミクロン系統BA.5変異株を主体とする第七波に見舞われている有様です。東京でも毎日のように2万〜3万人という新規陽性者数が報告され続けていて、各種報道でも「検査体制の飽和(破綻)」が叫ばれるような事態となっています。 で、検査体制が飽和していて「真の陽性者数」が分からないとなると、実際にはどれくらいコロナの感染拡大が深刻化を正確に見積もるのも難しいということになります。そこでオープンデータからある程度真の陽性者数を見積もることが出来ないかなと考えていたら、灯台下暗しということで身近にありました。Googleトレンドの検索トレンドデータです。これである程度特徴的な検索ワードのトレンドを見ることで、実際の感染拡大状況がどれほどのものか見積もれるのではないか

    新型コロナウイルス感染症の「真の」感染拡大状況を検索トレンドから何となく推測してみた - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2022/08/09
    真の陽性者数を知りたいってって需要あるの?
  • データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Wokandapix from Pixabay) 個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月で人生逆転」ムーブメントと折からのDXブームに煽られる形で沸き起こった第三次ブームを経て、何だかんだで社会に定着してきた感があります。 で、このブログを始めた頃からの連綿と続くテーマになっていますが、いつの時代も話題になるのが「データサイエンティスト(になるに)は何を勉強すべきか」ということ。7年前から恒例にしてきた「スキル要件」記事では、基的には「どれも必要な知識(学識)」であるという前提で分野・領域・項目を挙げてきました。少なくとも、最初の3回ぐらいはそういう認識でスキル要件記事を書いていた気がします。 ところ

    データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2022/07/29
    “帰無仮説有意性検定(NHST) ”
  • 私論:メトリクスで評価される研究をむしろ「質的」に評価してみてはどうか - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Arek Socha from Pixabay) 江添さんがこんな記事を書かれていました。個人的な感想ですが、面白い観点だなと思った次第です。 この記事では、江添さんが取り上げた論文についての直接の議論はあえて避けます*1。が、江添さんが提起した問題をより一般化して、SOTAに限らず「ある何かしらのメトリクスで評価される」分野の研究をどう見たら良いか?という問題についてちょっと考えてみようと思います。 メトリクスで評価される結果「僅かな改善」ばかりが繰り返される世界 メトリクスの改善は僅かかほぼ無いが「質」には大きな差があるケースもある 最後に 追記 メトリクスで評価される結果「僅かな改善」ばかりが繰り返される世界 今や機械学習のSOTAレースはその代表例になった感がありますが、メトリクスを競い続けた結果「僅かな改善」ばかりが多数繰り返される世界というのは意外と珍しくあ

    私論:メトリクスで評価される研究をむしろ「質的」に評価してみてはどうか - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2022/05/31
    SOTAレースやるのに問題はないけど、やってない人が評価されないのであれば、歪みが出てくると思った。問題を設計して、どうにか解決したけど、70%の精度だった人とSOTA+0.03%が同じ評価になるんだろうか(事情はわか
  • 効果量(effect size)のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    統計学的検定の話を始めたら自分の勉強の方が止まらなくなってしまったので(笑)、ついでにやってみようと思います。ちなみにこの記事は前回のやたらブクマを集めた記事の続きみたいなものです。 そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 六木で働くデータサイエンティストのブログ 例えば有意ではないという結果になった時にそれが「実際に帰無仮説が真」なのか「単にサンプルサイズが小さくて検出力が足りないだけ」なのか判断せよという問題。前者なら果てしなくサンプルサイズを大きくしても有意にはならないし、後者なら今度は効果量(effect size)のことを考えなければいけません。 というように前回の記事では検出力(statistical power)と効果量(effect size)について触れたんですが、タイムリーに先日の第36回TokyoRでその辺の話をしてきたので*1、そ

    効果量(effect size)のはなし - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2022/05/23
  • 分析結果が有意にならなくて困っている人々のためのハウツー本を書きました - 渋谷駅前で働くデータサイエンティストのブログ

    近年様々な議論もあるようですが、依然として「統計的仮説検定」を初めとする統計分析においては「p < 0.05」なるp値が得られるような「有意差」もしくは「有意性」が重視される業界は世間には数多く、有意な分析結果が得られなくて困っている人々は少なくないようです。 そこで、そんな人々のためになるようなハウツー的な書籍をこの度上梓しました。題して『今日からはじめる達人p値ハッキング』ということで、p-hacking及びそれ以外の様々な「有意な分析結果を得るためのテクニック」をまとめてあります。以下に目次を挙げておきます。 目次 第1章:何故貴方の分析にはp < 0.05が必要なのか 第2章:全てのサンプルを使うことをやめよう 第3章:サンプルをもっと増やしてみよう 第4章:p < 0.05が得られるような仮説を設定してみよう 第5章:検定手法を使い分けてみよう 第6章:p < 0.05が大変な

    分析結果が有意にならなくて困っている人々のためのハウツー本を書きました - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2022/04/01
  • 何故「データ『サイエンティスト』」と呼ばれるのか?という問いへの端的な答え - 渋谷駅前で働くデータサイエンティストのブログ

    第一次データサイエンティスト・ブームから8年以上が経つわけですが、結構不思議なのが今でも「何故データ『サイエンティスト』という名前なのか?彼らは研究者ではないのだからおかしい」という議論が定期的に沸き起こる点です。 その理由は色々ありそうですが、つい最近ではこちらのNHKの報道特集でフィーチャーされたのが大きかったのかもしれません。つまり、それまで「データサイエンティスト」という語を知らなかった人たちがこのようなメディア報道に触れて初めて知るたびに、上記のような疑問を持つ人たちが現れては各所で議論になるという流れが繰り返されているということなのでしょう。 ということで、いつも通りネタ切れで書くことがないので今更ながらですが「何故データ『サイエンティスト』と呼ばれるのか?」という疑問に対する、僕なりの回答をざっくり書いてみようと思います。なお、恒例ながら事実誤認や理解不足の点など記事中にあり

    何故「データ『サイエンティスト』」と呼ばれるのか?という問いへの端的な答え - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2021/09/28
  • 何故データサイエンティストになりたかったら、きちんと体系立てて学ばなければならないのか - 渋谷駅前で働くデータサイエンティストのブログ

    先日、Quora日語版でこんなやり取りがありました。 基的にはここで述べた通りの話なのですが、折角なのでブログの方でも記事としてちょっとまとめておこうと思います。題して「何故データサイエンティストになりたかったら、きちんと体系立てて学ばなければならないのか」というお話です。 問題意識としては毎回引き合いに出しているこちらの過去記事で論じられているような「ワナビーデータサイエンティスト」たちをどう導くべきかという議論が以前から各所であり、それらを念頭に置いています。なお毎度のことで恐縮ですが、僕も基的には独学一の素人ですので以下の記述に誤りや説明不足の点などあればご指摘くださると幸いです。 一般的なソフトウェア開発と、統計分析や機械学習との違い 統計分析や機械学習仕事にするなら、その「振る舞い」を体系立てて学ぶ必要がある きちんと体系立てて学ばなかった結果として陥りがちな罠 余談

    何故データサイエンティストになりたかったら、きちんと体系立てて学ばなければならないのか - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2021/05/14
  • RでK-meansの最適なクラスタ数をAIC / BICに基づいて求める - 渋谷駅前で働くデータサイエンティストのブログ

    これはただの備忘録です。既知の話題ばかりが並べられているので、特に新鮮味のない内容である点予めご容赦ください。 クラスタリング手法として広く知られるK-meansは、その簡便さから非常に広汎に使われていますが、一方で「クラスタ数を恣意的に決め打ちせざるを得ない」という難点があり、「最適なクラスタ数をどうやって決めるか」という課題が長年に渡ってあります。この課題の解決策についてちょっと調べてみたので、以下にまとめてみました。 K-meansにおける「最適なクラスタ数の決め方」として、こちらの記事では伝統的な手法ということで エルボー法 シルエット分析 X-means(K-meansに情報量規準を適用して再帰的に最適クラスタ数を決める) の3種類が紹介されています。これらは僕も以前から聞いたことがあるもので、実際K-meansの実装の中には最初からエルボー法などを含んでいるものもあったりします

    RでK-meansの最適なクラスタ数をAIC / BICに基づいて求める - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2021/04/21
  • データサイエンティストの「真の実力」を測るための効果的な面接方法 - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by neo tam from Pixabay) 最近こんな記事が出ていたようですが、僕にとっては既視感満載の話題でした。何故かというと、実は現職に来る以前に既にここで書かれている面接方法を実務担当者面接の責任者として実践していたからです。ちなみにその方法は2013年ぐらい当時のテック系メディアで記事として取り上げられていたものなのですが、残念なことに現在どれほど検索してもその記事が見つかりません……。 その内容自体はしばらく前に英語版Quoraに書いていたり*1もっと遡ればTwitterに書いたりしていたのですが、そう言えばブログには書いていなかったなと思い出したので、改めてブログ記事にしてみようと思います。なお、ここに書かれている内容は僕の現在の職務とは一切関係がないことを予めお断りしておきます。 データサイエンティストに必要なのは「解決する力」であって「瞬発力」ではない

    データサイエンティストの「真の実力」を測るための効果的な面接方法 - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2020/09/22
    面接する体で、未解決の問題を出題
  • 新型コロナウイルス不況でデータサイエンティスト・機械学習エンジニアは失業するのか - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) のっけから不穏なタイトルで恐縮ですが、個人的に新型コロナウイルスの感染拡大初期の頃から懸念していた事態が徐々に現実になる流れが見え隠れしており、自分自身の警戒も込めて記事にしてみました。関連資料の誤読・理解不足・認識の誤りなどあればご指摘ください。 UberのAI部門解散というニュースの衝撃 その他の企業及びデータ分析業界の雇用情勢について 新型コロナウイルス禍で「余興」としてのデータサイエンスやAI研究開発を続ける余裕が失われていく? 結局のところは「業」「好景気」なprofit center部門に行くべき? UberのAI部門解散というニュースの衝撃 先日3700人を解雇すると発表したUberなのですが、最近さらに中核であるライドシェア事業を中心に3000人を解雇すると発表して波紋が広がっているようです(フードデリバリー事業は拡充するとのこと)。

    新型コロナウイルス不況でデータサイエンティスト・機械学習エンジニアは失業するのか - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2020/05/23
  • 改めて、汎化性能と交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    追記 再現性をチェックする実験を後日実施しています。併せてお読みください。 以前こんな記事を書きました。 この辺の話はとっくの昔に常識になっていると思っていたのですが、昨今様々な「モデル」が提唱されて公の場で喧伝されることが増えてきており、その中には明らかにこれらの記事で指摘されている問題に引っかかっているものがあるようなので、注意喚起も兼ねて改めてブログ記事として書いてみようと思います。 追記 (May 08, 2020) 文中にも記事公開当初の初稿の時点でいくつか但し書きを入れてありますが、この記事で最も強調したかったことは「時系列データに対して多項式フィッティングを行うという来あり得ないモデリングのやり方であっても、交差検証を行えば短期的な予測性能(汎化性能)を改善することができる」ということです。データセットにランダムウォークを選択したのは、単に極値が2つ以上ある時系列を生成し

    改めて、汎化性能と交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ
    samu_i
    samu_i 2020/04/12