タグ

ブックマーク / tjo.hatenablog.com (98)

  • 『因果推論』(金本拓:オーム社)は因果推論に留まらず現代的なマーケティング分析手法まで網羅したバイブル - 渋谷駅前で働くデータサイエンティストのブログ

    因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ 作者:金 拓オーム社Amazon 著者の金さんからご指名でご恵贈いただいたのが、こちらの『因果推論 ―基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ―』です。正直に白状しますと、因果推論とタイトルにつく技術書はここ数年でゴマンと出版されており、書も紙冊子で頂戴したものの僕はあまり期待せずにページをめくり始めたのでした(ごめんなさい)。 ところが、ほんの数ページめくっただけでその内容に僕は仰天しました。グラフィカルで実務家にとっての分かりやすさを重視した因果推論の解説と実践にとどまらず、現代的なマーケティング分析では必須の種々の手法についてまで懇切丁寧に解説とPythonによる実践例が付された書は、文字通り「マーケティング分析実務家にとってのバイブル」になり得る素晴らしい一冊だと直感し

    『因果推論』(金本拓:オーム社)は因果推論に留まらず現代的なマーケティング分析手法まで網羅したバイブル - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2024/04/23
  • 我が家の我流インドカレーレシピ - 渋谷駅前で働くデータサイエンティストのブログ

    時々色々なところで写真を披露していますが、僕の15年以上に渡る趣味の一つにインド料理があります。元はと言えば偶然通うようになったインド料理屋が実は日国内のインド料理業界との関わりの深いお店で、そこで教えていただいた知識をもとに様々な都内の有名インド料理屋を巡ったり、はたまた所縁のあるインド料理研究家の方のレシピを読むようになったりして、今ではインド料理べ歩くのも自分で作るのも同じくらい好きという有様です。 そんなわけで、これまた時々インドカレーレシピを教えて欲しいというリクエストをいただくことがあり、我流で恐縮ですが恥を忍んで(来のブログの趣旨とは完全に異なりますが)我が家のレシピを書いてみることにしました。ただ、以下に記すレシピは完全に我流で正統なものではないので、正統派のレシピの載っている参考文献を併せてご紹介することとします。 最低限のインド料理の基礎知識 我が家のレシピ

    我が家の我流インドカレーレシピ - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2024/04/06
  • 2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ

    毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こうしたかというと、平たく言って 「初級&中級向け」推薦書籍リストは定番化していて毎年あまり変更点がない 逆に直近のホットトピックスに関するテキストは毎年入れ替わりが激し過ぎて網羅しづらい という課題があり、特に2点目についてはあまりにもデータサイエンス関連書籍の新規刊行が多過ぎる&僕自身がその流れについていけておらず完全に浦島太郎状態ですので、万人向けに等しくウケるようなリストを作るのは今回をもって完全に諦めたというのが実態です。 その上で、前回まで踏襲されていた定番書籍リストはバルクで提示すると

    2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2024/02/24
  • 「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ

    最近の話ですが、以下のようなニュースが話題になっているのを見かけました。 データサイエンス系の学部は文理融合の学びを掲げ、文系の受験生も集めるため、受験科目に「数学」を含まない入試方式を設ける大学も少なくない。河合塾によると、私立大のデータサイエンス系学部・学科における昨春の一般選抜のうち、数学を選ばずに受験できる大学は約半数もあった。 要は「数学不要」のデータサイエンス学部が出てくるようになったというお話で、各種SNSでは論議を呼んでいるようです。界隈によってはほとんど「嘲笑」に近い評が流布していることもあり、少なくともデータサイエンス業界におけるこのニュースの受け止められ方としてはかなり冷ややかだという印象があります。 とは言え、冗談でも何でもなく「全国津々浦々どこに行っても大学の新設データサイエンス学部の広告を見かける」*1というのが既に常態化している昨今では、これに類する話題は今後

    「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2024/01/24
  • 「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ

    今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。 実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング

    「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2023/12/21
    自説をも反証し得るのがサイエンスの姿勢だと思うので具体例が知れてとてもありがたい
  • データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ

    前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。 しかし、それは同時に「データセットが持つ質的な性質」と「データ分析手法の性質」とのミスマッチと、それが引き起こす問題とについてこれまであまり関心を持ってこなかった人が多いということなのかもしれません。そして、そのミスマッチは冗談でなく古来からある程度定まった類型があり、データ分析業界の古参なら「そんなの常識だよ」というものばかりだったりします。 ところが、最近僕の周囲でもそういうミスマッチが深刻な実問題を招いているケースが散見され、思ったよりもそれは常識ではないのかな?と思わされることが

    データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2023/11/12
    "定められた実験計画が守られないケースが少なくない/割と頻繁に聞くのが「コントロール群にだけ何もマーケティング施策をやらないのは重大な機会損失なので現場の判断で勝手にいくつか違う施策を打った」みたいな"
  • 「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた - 渋谷駅前で働くデータサイエンティストのブログ

    先日、こちらのポストをお見かけしました。 AI技術開発部の高橋が社内勉強会の資料「時系列予測にTransformerを使うのは有効か?」を公開しました。 論文Are Transformers Effective for Time Series Forecastingの紹介を中心に、時系列予測について解説しています。ぜひご覧ください。https://t.co/LplxTT8b1d pic.twitter.com/nUXb4bGiQ3— GO Inc. AI Tech (@goinc_ai_tech) 2023年9月28日 なるほど、NN全盛というかNN一択の時代にあっては時系列予測もNNでやるのが当たり前になったのだなという感想でした。大昔「沖」で古典的な計量時系列分析を一通り学んだ身としては隔世の感がありますが、これもまたNN時代の趨勢なのでしょう。 なお、元論文2点は上記リンクから辿

    「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2023/10/22
  • 再現性問題のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    経済セミナー2022年6・7月号 通巻726号【特集】経済学と再現性問題 日評論社Amazon 最近は計量経済学・統計学方面の方々との交流が多いんですが、そのご縁で『経済セミナー』の2022年6・7月号が再現性問題を取り上げていたと知り、入手して読んでみました。特集部分の目次を以下に引用すると、 特集= 経済学と再現性問題 【鼎談】再現性の問題にどう向き合うか?……川越敏司×會田剛史×新井康平 心理学における再現性の危機――課題と対応……大坪庸介 経済学における再現性の危機――経済実験での評価と対応……竹内幹 フィールド実験・実証研究における再現性……高野久紀 健全な研究慣習を身に付けるための実験・行動経済学101……山田克宣 再現性問題における統計学の役割と責任……マクリン謙一郎 という内容で、幾つかの分野にまたがって論じられています。特に、このブログ含めて個人的に度々お世話になってい

    再現性問題のはなし - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2023/09/12
    “「再現性問題に悩まされながら心理学の研究を続けるくらいならアカデミアを辞めて産業界で就職するのも良い」とまで書いています”
  • 10年経ってもついに消えずに残った、データサイエンティストという職業 - 渋谷駅前で働くデータサイエンティストのブログ

    このブログでも何度か引用しているこちらの記事で、「データサイエンティストという職業は10年以内に消える」という趣旨の議論がされていたのがちょうど10年前の2013年でした。ちなみにこの記事はついているブックマーク数に比して当時は結構注目を集めたという記憶があり、割と業界内では「確かにこんな中途半端な職業が10年後もあるわけないよね」と言われていたのを思い出します。 実際には皆さんもご存知のように、2023年になってもデータサイエンティストという職業はついに消えることなく、現在に至るまで残り続けています。その経緯がどんなものであったかは、業界10年史記事でもある程度触れた通りです。 しかし、同時に現在では「生成AIの普及でデータサイエンティストの仕事がなくなる」という風説も出回っており、改めてデータサイエンティストという職業の将来性に不透明感が漂いつつあるのもまた事実です。そこで、今回の記事

    10年経ってもついに消えずに残った、データサイエンティストという職業 - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2023/08/27
  • NN研究における再現性にまつわるエトセトラ - 渋谷駅前で働くデータサイエンティストのブログ

    先日、ふとしたきっかけでしましま先生*1がこちらの論文について触れられているのを見かけたのでした。 これは推薦システム分野におけるNN研究の再現性について検証した2019年の論文で、近年のトップ会議*2に採択されたNN手法18個に対して再現を試みたところ、「reasonableな」努力で再現できたのはわずかに7個に過ぎず、その中でも1個は論文中で主張されたベースラインを超えることは出来なかったと報告しています。 ただ、この報告はNN研究における再現性に関する議論のあくまでも一例であり、実際コロナ禍以前から「論文中ではSOTAを達成と書いているのに同じ実装をどう組んでもSOTAに達しない」みたいな業界噂話はそこかしこで耳にしたものでした。しかしながら、実際のソフトウェアやアプリケーションとしてそれらのNN手法が用いられて、尚且つその結果として何かしらの不具合でも起きない限りは、機械学習業界の

    NN研究における再現性にまつわるエトセトラ - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2023/07/25
  • グアムに行ってきました - 渋谷駅前で働くデータサイエンティストのブログ

    Hafa Adai!!*1 6月中旬、夏至のちょっと前にグアムに行ってきました。コロナ禍以降これまで全く海外に行っておらず、また昨年5月にDVT(深部静脈血栓症)に罹ってから*2は飛行機にすら乗っていなかったので、その両方を今回ようやく解禁したという次第です。 行き先をグアムにした理由は幾つかあるんですが、1つ目は飛行機で4時間未満しかかからず「海外としては極めて近い」ということ。2つ目は時差が1時間しかないということ。3つ目は「南の島でゆっくりしたかった」ということ。1・2番目は主にDVT*3を慮った結果なんですが、3番目に関しては10年前にも行ったサイパンでも良かったんですよね。ただ、サイパンは今でも直行便が少なく不便なのに対して、グアムの方が直行便が多くて尚且つ我が家ではまだ行ったことがなかったので、今回はグアムを選んだのでした。 ということで、我が家としては事前に期待した以上にグア

    グアムに行ってきました - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2023/06/25
  • シュートを外した後で、ゴールポストを動かして「入っていた」ということにしてはいけない - 渋谷駅前で働くデータサイエンティストのブログ

    先日こんなことをコメントしたら、思ったよりも反応が多くて「皆さん同じことを思っていたのかな」と感じたのでした。 シュートを外した後でゴールポストを動かして入ったことにするのはダメですよ / 「当初は有意差が認められなかったが、毛乳頭細胞が少ないと思われる被験者を除いて追加解析したころ、塗布24週後の毛髪密度は「含む」を使った被験者のほうが統計学的に有意に上昇したという」 https://t.co/K91NElUAgN— TJO (@TJO_datasci) 2023年6月6日 要はこれは再現性問題の典型例だという話なんですが、近年あれだけ再現性問題が騒がれた割には意外と未だに世間的にはあまり広く知られていないのだろうか、という気もしています。 このブログでも再現性問題については一通り論じたことがありますが、ちょうど良い機会なので改めてこの手のQRPs (Questionable Resea

    シュートを外した後で、ゴールポストを動かして「入っていた」ということにしてはいけない - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2023/06/10
  • LLMにデータ分析をさせてみる:テーブルデータの概要解釈 - 渋谷駅前で働くデータサイエンティストのブログ

    先日こんな記事を書いたのでした。はてブも400近くに達しており、良くも悪くもバズったようです。 で、この記事の中で言いたかったことは幾つかあるのですが、その一つに「文書・テキスト要約など『そもそもLLMというかLM自体が得意な仕事』をさせると便利なはず」というのがありました。そして実際に現職の日常業務の中でも時々使っているのですが、確かに便利だなぁと思うことが多いです(もっとも時々凄まじいhallucinationを炸裂させてくることもありますが)。 そこでちょっと考えたのが「データ分析の諸作業のうち何をLLMにやらせると効率的か」というお題です。これはちょっと調べれば既に試している人が結構いて、例えば以下のような事例があったりします。 ただ、例えば "Titanic" のような有名過ぎるデータセットだとそこらじゅうにこれを対象として分析してみましたという記事やドキュメントが沢山転がってお

    LLMにデータ分析をさせてみる:テーブルデータの概要解釈 - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2023/05/23
  • LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ

    ちょっと前に以下のようなことを放言したら、思いの外反響が多くてちょっとびっくりしたのでした。それだけ、現代のLLM chatbot / generative AIの台頭に期待と不安を抱いている人が多いということの裏返しなのでしょう。 既に色々コメントが出ているけど、我々人類が「知的労働」だと思っていることの大半が実は「過去実績をなぞって適当にその場に合わせて組み立てているだけ」なんじゃないかと訝っているので、そういう「自称知的労働」は多分LLMで代替されると思う。新奇なものを生み出す仕事は相変わらず残る https://t.co/GGK41vSDcn— TJO (@TJO_datasci) 2023年3月15日 昨年の年末振り返り記事でも話題にしたChatGPT(そして後続の各種LLM chatbot)ですが、今年に入ってからの話題の広がり方には想像を超えるものがあり、ついに朝の情報番組な

    LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2023/03/25
    めっちゃ面白い
  • 2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊) - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by wal_172619 from Pixabay) 去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない!」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も推薦書籍リストを公開しようと思います。 初級向け6冊 実務総論 データサイエンス総論 R・Pythonによるデータ分析プログラミング 統計学 機械学習 中級向け8冊 統計学 機械学習 テーマ別15冊 回帰モデル PRML 機械学習の実践 Deep Learning / NN 統計的因果推論 ベイズ統計学 時系列分析 グラフ・ネットワーク分析 データ基盤 コメントや補足説明など 完全なる余談 初級向け6冊 今回は新たに加わったテキストがあります。 実務総論 AIデータ分析プロジェクトのすべて[ビジネス力×技術力=価値創出

    2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊) - 渋谷駅前で働くデータサイエンティストのブログ
  • K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文 - 渋谷駅前で働くデータサイエンティストのブログ

    クラスタリングに用いられるK-meansのクラスタ数決定方法については長く議論されてきた歴史があり、このブログでも以前ちょろっと取り上げたことがあります。 で、Twitterを眺めていたらタイムラインに面白い論文が流れてきました。それがこちらです。 タイトルを読んで字の如く「K-meansのクラスタ数を決めるのにエルボー法を使うのはやめろ」という論文なんですね。全体で7ページと非常にコンパクトで読みやすい内容なので、簡単にまとめて紹介してみようと思います。なおいつもながらですが、僕の技術的理解が不足しているが故の誤りなどが混じる可能性がありますので、その際はコメント欄などでご指摘くださると幸いです。 あるtoy dataに対するK-meansの結果 目検に頼らないエルボー法について考える ならば、既存のクラスタ数決定法の中では何を選ぶべきか そもそもK-meansが有効でないケースもあるこ

    K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文 - 渋谷駅前で働くデータサイエンティストのブログ
  • 「データ分析の民主化」の在り方を、「社員全員Excel経営」が「社員全員データサイエンス経営」へと進化していった事例に見る - 渋谷駅前で働くデータサイエンティストのブログ

    以前こんな記事を書いたことがあります。 「社員全員Excel経営」で名高い、ワークマン社のサクセスストーリーを論評したものです。2012年にCIOに就任した土屋哲雄常務のリーダーシップのもと、取引データの完全電子化を皮切りに「全社員がExcelを使いこなして数字とデータで経営する」戦略へと移行し、社内のExcelデータ分析資格を一定以上取得しないと管理職に昇進できないとか、はたまた幹部クラスの企画・経営会議ではデータに基づかない議論や提案は相手にすらされないとか、「Excelを社員全員が使えるようになるだけでもここまで企業カルチャーは変わり得るのか」という事例のオンパレードで、関連記事や書籍を読んでいて舌を巻いたのを覚えています。まさしく「ワークマンのすごいデータ活用」だったのです。 一方、個人的に強く印象を受けたのが土屋常務が様々なところでコメントしていた「我が社には突出したデータサイエ

    「データ分析の民主化」の在り方を、「社員全員Excel経営」が「社員全員データサイエンス経営」へと進化していった事例に見る - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2022/12/11
  • 『標準ベイズ統計学』はベイズ統計学をきちんと基礎から日本語で学びたいという人にとって必携の一冊 - 渋谷駅前で働くデータサイエンティストのブログ

    標準 ベイズ統計学 朝倉書店Amazon 発刊当時に話題になっていた『標準ベイズ統計学』。実は訳者のお一人、菅澤翔之助さんからオフィス宛てでご恵贈いただいていたのですが、親父の没後処理やら自分のDVTやら実家の片付けやらで全く手が回らずオフィスに置いたままにしてしまっていたのでした。で、この度改めて拝読してみたら「何故もっと早く読まなかったんだ」と後悔するくらいあまりにも内容が素晴らしかったので、遅まきながら書評記事を書こうと思い立った次第です。 ベイズ統計学というと、殆ど詳しくない人だと「ベイズの定理以外に何があるの?」という印象ぐらいしかないかもしれませんし、一方でとりあえず技法としてやり方だけ覚えてしまった人だと「とりあえずMCMC回せばいいんだよね?」みたいな雑な理解になってしまうかもしれません。いずれにせよこれまで邦書ではベイズ統計学というと超初歩か実装重視かの二択が多かったせい

    『標準ベイズ統計学』はベイズ統計学をきちんと基礎から日本語で学びたいという人にとって必携の一冊 - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2022/11/22
  • データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Gordon Johnson from Pixabay) TL;DR 今年の6月に僕自身がデータサイエンティストに転じて10年という節目の年を迎え、10月でDavenportの「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説から10周年になるのを機に、この10年間のデータサイエンティストという職業の変遷を振り返ることにしました。 6月の回顧録記事でも書いた通り、僕がデータサイエンティストの仕事に就いてから今年で10年になります。最近も同じかどうかは分かりませんが、古くから「10年ひと昔」という常套句がある通りで個人的には大きな節目の年だと感じています。 一方で、今年の10月にはあまりにも有名な「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説が出てから10周年を迎え、後述するようにDavenportは「今もデータサイエンティ

    データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2022/10/22
  • データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Wokandapix from Pixabay) 個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月で人生逆転」ムーブメントと折からのDXブームに煽られる形で沸き起こった第三次ブームを経て、何だかんだで社会に定着してきた感があります。 で、このブログを始めた頃からの連綿と続くテーマになっていますが、いつの時代も話題になるのが「データサイエンティスト(になるに)は何を勉強すべきか」ということ。7年前から恒例にしてきた「スキル要件」記事では、基的には「どれも必要な知識(学識)」であるという前提で分野・領域・項目を挙げてきました。少なくとも、最初の3回ぐらいはそういう認識でスキル要件記事を書いていた気がします。 ところ

    データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ
    peketamin
    peketamin 2022/07/30