ブックマーク / tjo.hatenablog.com (18)

  • 実務において回帰分析を行うに当たっての注意点を改めて挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

    先日のことですが、以下のニュースが統計的学習モデル界隈で話題になっていました。 肝心の箇所が会員限定コンテンツなので簡潔にまとめると、従来モデルよりも説明変数に入れる海域の数を増やした上で、Lasso(L1正則化)回帰で多重共線性を抑えつつ汎化性能を高めるというアプローチを取った、というお話です*1。これは回帰分析という基に立ち返った、昨今の「も杓子も生成AI」という流れからは一線を画した試みで、いかにも玄人好みという感があるなと僕も感じた次第です。 一方で、僕が身を置く広告・マーケティング業界でもMMM (Media/Marketing Mix Models)を初めとして様々なタイプの回帰分析が広く行われていますが、個人的に見聞する範囲では冗談でなく当にピンキリで、中には「そんなデタラメな回帰分析で当に役員会の意思決定に使っているんですか???」みたいなケースも珍しくありません。

    実務において回帰分析を行うに当たっての注意点を改めて挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2024/07/21
  • 機械学習を使うデータサイエンスの仕事に比して、統計学を使うデータサイエンスの仕事が産業界に少ない理由 - 渋谷駅前で働くデータサイエンティストのブログ

    近年のデータサイエンティスト界隈では、僕が以前スキル要件記事でも提唱した通りの「ソフトウェアエンジニアの延長としての機械学習エンジニア」(機械学習メイン)と「アナリストの延長としてのデータサイエンティスト」(統計学メイン)とにキャリアもポジションもカルチャーも分化するようになって久しい印象があるのですが、世の中に溢れる求人情報や各種SNSで流れてくる巷の声を見聞きする限りでは、どう見ても前者の方が数が多い上に需要も旺盛なんですよね。 発展というよりMLを使ったプロダクトでお金稼いでいる会社があって、統計学やエコノメベースでプロダクトを作る事業会社がないだけだと思います。統計学とか示唆出しの手段なので、ブラスでお金稼ぐ感覚がないと居場所がないだけかなと。 https://t.co/PCDQHiIvlJ— be (@behemuhemulove) 2024年6月11日 で、畏友*1beさんがこ

    機械学習を使うデータサイエンスの仕事に比して、統計学を使うデータサイエンスの仕事が産業界に少ない理由 - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2024/06/18
  • 『因果推論』(金本拓:オーム社)は因果推論に留まらず現代的なマーケティング分析手法まで網羅したバイブル - 渋谷駅前で働くデータサイエンティストのブログ

    因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ 作者:金 拓オーム社Amazon 著者の金さんからご指名でご恵贈いただいたのが、こちらの『因果推論 ―基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ―』です。正直に白状しますと、因果推論とタイトルにつく技術書はここ数年でゴマンと出版されており、書も紙冊子で頂戴したものの僕はあまり期待せずにページをめくり始めたのでした(ごめんなさい)。 ところが、ほんの数ページめくっただけでその内容に僕は仰天しました。グラフィカルで実務家にとっての分かりやすさを重視した因果推論の解説と実践にとどまらず、現代的なマーケティング分析では必須の種々の手法についてまで懇切丁寧に解説とPythonによる実践例が付された書は、文字通り「マーケティング分析実務家にとってのバイブル」になり得る素晴らしい一冊だと直感し

    『因果推論』(金本拓:オーム社)は因果推論に留まらず現代的なマーケティング分析手法まで網羅したバイブル - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2024/04/23
  • 2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ

    毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こうしたかというと、平たく言って 「初級&中級向け」推薦書籍リストは定番化していて毎年あまり変更点がない 逆に直近のホットトピックスに関するテキストは毎年入れ替わりが激し過ぎて網羅しづらい という課題があり、特に2点目についてはあまりにもデータサイエンス関連書籍の新規刊行が多過ぎる&僕自身がその流れについていけておらず完全に浦島太郎状態ですので、万人向けに等しくウケるようなリストを作るのは今回をもって完全に諦めたというのが実態です。 その上で、前回まで踏襲されていた定番書籍リストはバルクで提示すると

    2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2024/02/24
  • 「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ

    最近の話ですが、以下のようなニュースが話題になっているのを見かけました。 データサイエンス系の学部は文理融合の学びを掲げ、文系の受験生も集めるため、受験科目に「数学」を含まない入試方式を設ける大学も少なくない。河合塾によると、私立大のデータサイエンス系学部・学科における昨春の一般選抜のうち、数学を選ばずに受験できる大学は約半数もあった。 要は「数学不要」のデータサイエンス学部が出てくるようになったというお話で、各種SNSでは論議を呼んでいるようです。界隈によってはほとんど「嘲笑」に近い評が流布していることもあり、少なくともデータサイエンス業界におけるこのニュースの受け止められ方としてはかなり冷ややかだという印象があります。 とは言え、冗談でも何でもなく「全国津々浦々どこに行っても大学の新設データサイエンス学部の広告を見かける」*1というのが既に常態化している昨今では、これに類する話題は今後

    「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2024/01/23
  • ヒトだからこそ価値を出せる余地は、AIやデータサイエンスの「外側」の本質への関わり方にある - 渋谷駅前で働くデータサイエンティストのブログ

    恒例の年末振り返り記事ですが、もうタイトルが示す通りです。例年通りであれば淡々と1年間の業界動向や個人的な学び、はたまたちょっとした私事などを綴るのですが、今年はたまたま良いお題がやってきたのでまず最初にその話を書こうと思います。 生成AIの爆発的な普及と、それに伴って生じた課題 AIやデータサイエンスの「外側」の質にアプローチするのが、ヒトのなすべき仕事 最後に、改めて年末の振り返りを 生成AIの爆発的な普及と、それに伴って生じた課題 今年は多くの生成AIプロダクトが公開され普及し、それに伴い文字通り正真正銘空前の生成AIブームが到来し、個人や企業のみならず霞ヶ関までもが、そしてついには政府与党までもがこぞって「生成AIの活用」を模索して立ち回るという有様になりました。書店に行けば生成AI関連書籍が棚一面を埋め尽くすという大盛況で、毎日のようにどこそこの大企業が生成AIを導入した〇〇サ

    ヒトだからこそ価値を出せる余地は、AIやデータサイエンスの「外側」の本質への関わり方にある - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2023/12/26
  • 「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ

    今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。 実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング

    「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2023/12/21
  • データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ

    前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。 しかし、それは同時に「データセットが持つ質的な性質」と「データ分析手法の性質」とのミスマッチと、それが引き起こす問題とについてこれまであまり関心を持ってこなかった人が多いということなのかもしれません。そして、そのミスマッチは冗談でなく古来からある程度定まった類型があり、データ分析業界の古参なら「そんなの常識だよ」というものばかりだったりします。 ところが、最近僕の周囲でもそういうミスマッチが深刻な実問題を招いているケースが散見され、思ったよりもそれは常識ではないのかな?と思わされることが

    データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2023/11/12
  • ビジネスにサイエンスを持ち込むということ - 渋谷駅前で働くデータサイエンティストのブログ

    先日、『しっかり学ぶ数理最適化 モデルからアルゴリズムまで (KS情報科学専門書)』の梅谷先生がこんなポスト(ツイート)をされているのを拝見したのでした*1。 個人的には「学問的なものでビジネスのボトルネックを解消する」や「学問的なものでビジネスモデルや業務プロセスをひっくり返す(変革する)」を意識してる。ビジネスモデルや業務プロセスを分析して、解消すべきボトルネックを見つけることから着手した方がスムーズかなと思ってる。 https://t.co/F2SBY57Vt7— Umepon (@shunji_umetani) 2023年9月25日 既にこのブログでも何度も述べていますが、いわゆる「データサイエンス」がここ10年の企業社会におけるビジネスに変革をもたらしているということは論を俟たないと思います。その観点から言えば、程度問題ながら「学問的なものでビジネスのボトルネックを解消する」「学

    ビジネスにサイエンスを持ち込むということ - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2023/09/30
  • エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ

    (『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんなも杓子もLLMに群がるが如き空前のブームを受けて、エンジニアデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊

    エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2023/07/02
  • LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ

    ちょっと前に以下のようなことを放言したら、思いの外反響が多くてちょっとびっくりしたのでした。それだけ、現代のLLM chatbot / generative AIの台頭に期待と不安を抱いている人が多いということの裏返しなのでしょう。 既に色々コメントが出ているけど、我々人類が「知的労働」だと思っていることの大半が実は「過去実績をなぞって適当にその場に合わせて組み立てているだけ」なんじゃないかと訝っているので、そういう「自称知的労働」は多分LLMで代替されると思う。新奇なものを生み出す仕事は相変わらず残る https://t.co/GGK41vSDcn— TJO (@TJO_datasci) 2023年3月15日 昨年の年末振り返り記事でも話題にしたChatGPT(そして後続の各種LLM chatbot)ですが、今年に入ってからの話題の広がり方には想像を超えるものがあり、ついに朝の情報番組な

    LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2023/03/25
  • 『標準ベイズ統計学』はベイズ統計学をきちんと基礎から日本語で学びたいという人にとって必携の一冊 - 渋谷駅前で働くデータサイエンティストのブログ

    標準 ベイズ統計学 朝倉書店Amazon 発刊当時に話題になっていた『標準ベイズ統計学』。実は訳者のお一人、菅澤翔之助さんからオフィス宛てでご恵贈いただいていたのですが、親父の没後処理やら自分のDVTやら実家の片付けやらで全く手が回らずオフィスに置いたままにしてしまっていたのでした。で、この度改めて拝読してみたら「何故もっと早く読まなかったんだ」と後悔するくらいあまりにも内容が素晴らしかったので、遅まきながら書評記事を書こうと思い立った次第です。 ベイズ統計学というと、殆ど詳しくない人だと「ベイズの定理以外に何があるの?」という印象ぐらいしかないかもしれませんし、一方でとりあえず技法としてやり方だけ覚えてしまった人だと「とりあえずMCMC回せばいいんだよね?」みたいな雑な理解になってしまうかもしれません。いずれにせよこれまで邦書ではベイズ統計学というと超初歩か実装重視かの二択が多かったせい

    『標準ベイズ統計学』はベイズ統計学をきちんと基礎から日本語で学びたいという人にとって必携の一冊 - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2022/11/21
  • 再現性問題のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    経済セミナー2022年6・7月号 通巻726号【特集】経済学と再現性問題 日評論社Amazon 最近は計量経済学・統計学方面の方々との交流が多いんですが、そのご縁で『経済セミナー』の2022年6・7月号が再現性問題を取り上げていたと知り、入手して読んでみました。特集部分の目次を以下に引用すると、 特集= 経済学と再現性問題 【鼎談】再現性の問題にどう向き合うか?……川越敏司×會田剛史×新井康平 心理学における再現性の危機――課題と対応……大坪庸介 経済学における再現性の危機――経済実験での評価と対応……竹内幹 フィールド実験・実証研究における再現性……高野久紀 健全な研究慣習を身に付けるための実験・行動経済学101……山田克宣 再現性問題における統計学の役割と責任……マクリン謙一郎 という内容で、幾つかの分野にまたがって論じられています。特に、このブログ含めて個人的に度々お世話になってい

    再現性問題のはなし - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2022/07/07
  • 企業で働くデータサイエンティストになって10年が経ちました - 渋谷駅前で働くデータサイエンティストのブログ

    TL;DR 10年前の落ちこぼれポスドクが今は立派なデータサイエンティストになれたっぽいので、ポエムを書きました。業界事情の振り返りと、仕事の話、知名度が上がることの良し悪し、キャリアの話などを綴っています。 時が経つのは早いもので、落ちこぼれポスドクだった僕が企業転職をし、データサイエンティストになって今日で10年が経ちました。自分の中ではデータサイエンティストに転じたのはついこの前のことのように思える一方で、あまりにも多くの様々な体験をしてきたせいか「もっと時間が経っている気がするのにまだ10年しか経っていないのか」という気もしています。 今でも時々SNSで話題に上る回顧録を書いたのが3年前のことなんですが、それ以降は相変わらず同じく現職に留まり続けていることもあり、有体に言えばそれほど大きく変わったことはありません。なので、新たに3年間の振り返りを書くのではなく、回顧録で書き漏らした

    企業で働くデータサイエンティストになって10年が経ちました - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2022/06/01
  • 『マスターアルゴリズム』は全ての人々を機械学習(人工知能)の世界へといざなう「冒険物語」 - 渋谷駅前で働くデータサイエンティストのブログ

    しましま先生(@shima__shima)こと神嶌敏弘先生から、訳書『マスターアルゴリズム』をご恵贈いただきました。 マスターアルゴリズム 世界を再構築する「究極の機械学習」 作者:ペドロ・ドミンゴス講談社Amazon 書はビル・ゲイツが「AIを知るための」と絶賛したという"The Master Algorithm"の邦訳版で、実際に「難しい理論や数式は書かれていないがこの一冊を読むだけで現代の機械学習人工知能)の世界の全容を一望できる」優れただと個人的には感じました。また縦書きゆえいわば「読み物」的な立ち位置の書籍であり、研究者や技術者のみならずビジネスパーソンさらには一般の読書家にとっても読みやすく、尚且つ得るものの大きい一冊だと思います。 ということで、以下簡単にレビューしていきたいと思います。なお実は僕自身もしましま先生から発刊前の段階で翻訳内容の閲読を依頼されて一通り目

    『マスターアルゴリズム』は全ての人々を機械学習(人工知能)の世界へといざなう「冒険物語」 - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2021/05/20
  • 何故データサイエンティストになりたかったら、きちんと体系立てて学ばなければならないのか - 渋谷駅前で働くデータサイエンティストのブログ

    先日、Quora日語版でこんなやり取りがありました。 基的にはここで述べた通りの話なのですが、折角なのでブログの方でも記事としてちょっとまとめておこうと思います。題して「何故データサイエンティストになりたかったら、きちんと体系立てて学ばなければならないのか」というお話です。 問題意識としては毎回引き合いに出しているこちらの過去記事で論じられているような「ワナビーデータサイエンティスト」たちをどう導くべきかという議論が以前から各所であり、それらを念頭に置いています。なお毎度のことで恐縮ですが、僕も基的には独学一の素人ですので以下の記述に誤りや説明不足の点などあればご指摘くださると幸いです。 一般的なソフトウェア開発と、統計分析や機械学習との違い 統計分析や機械学習仕事にするなら、その「振る舞い」を体系立てて学ぶ必要がある きちんと体系立てて学ばなかった結果として陥りがちな罠 余談

    何故データサイエンティストになりたかったら、きちんと体系立てて学ばなければならないのか - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2021/05/15
  • 『ウェブ最適化ではじめる機械学習』はモダンなUI/UX改善の枠組みを学ぶ上で至適の一冊 - 渋谷駅前で働くデータサイエンティストのブログ

    ウェブ最適化ではじめる機械学習 ―A/Bテスト、メタヒューリスティクス、バンディットアルゴリズムからベイズ最適化まで 作者:飯塚 修平発売日: 2020/11/19メディア: 単行(ソフトカバー) こちらの書籍を著者の飯塚修平さんからご恵贈いただきました*1。テーマとしてはウェブ最適化即ちいわゆるUI/UX改善で、そのアプローチについて包括的にまとめた内容です。ちなみに書は著者ご自身の修士・博士論文の内容に沿ったもので、いわば大学院での研究の集大成とも言えるものなのだそうです。 と書くと、いかにも「ガッチガチの研究」に見えるかもしれませんが、引用されている事例などには一般のユーザー・消費者でもある我々にも馴染み深いものが多く、意外と取っ付きやすい内容だなと個人的には感じました。また、A/Bテスト・バンディット・ベイズ最適化とそれぞれ個別に専門書が書かれることが多く、別々に学ぶ羽目にな

    『ウェブ最適化ではじめる機械学習』はモダンなUI/UX改善の枠組みを学ぶ上で至適の一冊 - 渋谷駅前で働くデータサイエンティストのブログ
    toshikish
    toshikish 2020/12/16
  • 『機械学習のエッセンス』はゼロからガチで機械学習を生業にしたい人が「いの一番に」読むべき一冊 - 六本木で働くデータサイエンティストのブログ

    機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning) 作者: 加藤公一出版社/メーカー: SBクリエイティブ発売日: 2018/09/21メディア: 単行この商品を含むブログを見る発売されてからだいぶ経ちますが、構想段階の頃より著者の「はむかず」さんこと加藤公一さんからお話を伺っていて注目していたこちらの一冊をようやく一通り読みましたので、サクッと書評めいた何かを書いてみようかと思います。 各章の概要 言うまでもなく実際の内容は皆様ご自身でお読みいただきたいのですが、これまでの書評記事同様に概要を簡単にまとめておきます。 第01章 学習を始める前に Python環境やAnacondaのインストールについての説明もなされているんですが、重要なのは後述する「書は何を含まないか」という節。ここに書の狙いの全てが書かれていると言って

    『機械学習のエッセンス』はゼロからガチで機械学習を生業にしたい人が「いの一番に」読むべき一冊 - 六本木で働くデータサイエンティストのブログ
    toshikish
    toshikish 2018/11/01
  • 1