ブックマーク / tjo.hatenablog.com (9)

  • 「見せかけの回帰」の復習 - 渋谷駅前で働くデータサイエンティストのブログ

    先日のことですが、Querie.meでこんな質疑がありました。 これは非常にご尤もなご意見であり、実際この問題提起に近いシチュエーションを見かけたことは五の指では数え切れないくらいあります。ということで、今回の記事では元々の問題意識ともいえる「見せかけの回帰」について、久しぶりにちょっと復習を兼ねて書いてみようと思います。 そもそも「見せかけの回帰」とは何か 実際に見せかけの回帰において起きること 見せかけの回帰への対処法 差分系列に変換する VARモデルを使う 動的線形(状態空間)モデルやベイズ構造時系列モデルを使う Rコード そもそも「見せかけの回帰」とは何か このブログでは11年前に沖の輪読記事を書いた際に「見せかけの回帰」については一通り取り上げていますので、今回はその際の説明を引用するに留めます。 なお前提知識として先に書いておくと、以下に出てくる「単位根過程」というのは平

    「見せかけの回帰」の復習 - 渋谷駅前で働くデータサイエンティストのブログ
    ET777
    ET777 2024/10/05
  • 生成AIの推論が高度になればなるほど、使う人間の側にも高度な知識が求められる - 渋谷駅前で働くデータサイエンティストのブログ

    先日こんなことを放言したら、思いの外結構伸びてしまったのでした。 「生成AIが博士号レベルの高度な課題解決や推論が出来る」ようになったら、その出力が正しいかどうかを判定できるのは同レベルの専門人材だけなので、そういう人材の需要が逆に高まる気がしている。それはプロの研究者が論文中で捏造や改竄をしても、プロの研究者でないと見破りづらいのと同じかと— TJO (@TJO_datasci) 2024年9月19日 ということで、今回も相変わらずネタ切れでブログに書くことがないので完全に与太記事ですが「生成AI(というかLLM)の推論がどんどん高度になることで逆にユーザーの側に高度なスキルが必要になる」とはどういうことかを、簡単なケーススタディと共に何となく書き綴ってみようと思います。 正解を知った上で生成AIに推論させるケース 正解がいまいち分からない中で生成AIに推論させるケース 生成AIの推論が

    生成AIの推論が高度になればなるほど、使う人間の側にも高度な知識が求められる - 渋谷駅前で働くデータサイエンティストのブログ
  • AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由 - 渋谷駅前で働くデータサイエンティストのブログ

    先日のことですが、こんなことを放言したら思いの外伸びてしまいました。 データ可視化は一時期物凄く流行った割に今はパッとしない印象があるんだけど、それは結局のところデータ可視化が「見る人に『考えさせる』仕組み」だからだと思う。現実の世の中では、大半の人々は自分の頭で考えたくなんかなくて、確実に当たる託宣が欲しいだけ。機械学習AIが流行るのもそれが理由— TJO (@TJO_datasci) 2024年8月28日 これはデータサイエンス実務に長年関わる身としてはごくごく当たり前の事情を述べたに過ぎなかったつもりだったのですが、意外性をもって受け止めた人も多ければ、一方で「あるある」として受け止めた人も多かったようです。 基的に、社会においてある技術が流行って定着するかどうかは「ユーザーから見て好ましいかどうか・便利であるかどうか」に依存すると思われます。その意味でいうと、データ分析技術にと

    AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由 - 渋谷駅前で働くデータサイエンティストのブログ
  • 実務において回帰分析を行うに当たっての注意点を改めて挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

    先日のことですが、以下のニュースが統計的学習モデル界隈で話題になっていました。 肝心の箇所が会員限定コンテンツなので簡潔にまとめると、従来モデルよりも説明変数に入れる海域の数を増やした上で、Lasso(L1正則化)回帰で多重共線性を抑えつつ汎化性能を高めるというアプローチを取った、というお話です*1。これは回帰分析という基に立ち返った、昨今の「も杓子も生成AI」という流れからは一線を画した試みで、いかにも玄人好みという感があるなと僕も感じた次第です。 一方で、僕が身を置く広告・マーケティング業界でもMMM (Media/Marketing Mix Models)を初めとして様々なタイプの回帰分析が広く行われていますが、個人的に見聞する範囲では冗談でなく当にピンキリで、中には「そんなデタラメな回帰分析で当に役員会の意思決定に使っているんですか???」みたいなケースも珍しくありません。

    実務において回帰分析を行うに当たっての注意点を改めて挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
  • 過学習(過剰適合)のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    すっかりおじさんになってしまった身としては近年の日のミュージックシーンに極めて疎くなって久しいのですが、最近になってAdoさん*1の楽曲に『過学習』というタイトルのものがあるということを知ったのでした。 一体どこで「過学習」なんてマニアックなテクニカルタームが存在することを知って、あまつさえ楽曲のタイトルにしようと考えたのか、というのが不思議で仕方ないのですが、機械学習や統計学を初めとするデータサイエンス領域の人々ぐらいにしか馴染みのなかった語がこうして人口に膾炙しているのかと思うとなかなかに感慨深いものがあります。 ということで、「過学習」とはどういうものであり、どのような場面で生じ、それをどうすれば避けられるか、という点について簡単にまとめてみることにしました。このテーマでは過去に何度もブログ記事を書いており、もはや何周目の話題なんだという感もありますが、温故知新ということでご容赦い

    過学習(過剰適合)のはなし - 渋谷駅前で働くデータサイエンティストのブログ
    ET777
    ET777 2024/05/03
    “その柔軟性ゆえにノイズにまでフィットしてしまい、全体として見た場合の予測性能が損なわれる結果になっている” おお…
  • 「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ

    最近の話ですが、以下のようなニュースが話題になっているのを見かけました。 データサイエンス系の学部は文理融合の学びを掲げ、文系の受験生も集めるため、受験科目に「数学」を含まない入試方式を設ける大学も少なくない。河合塾によると、私立大のデータサイエンス系学部・学科における昨春の一般選抜のうち、数学を選ばずに受験できる大学は約半数もあった。 要は「数学不要」のデータサイエンス学部が出てくるようになったというお話で、各種SNSでは論議を呼んでいるようです。界隈によってはほとんど「嘲笑」に近い評が流布していることもあり、少なくともデータサイエンス業界におけるこのニュースの受け止められ方としてはかなり冷ややかだという印象があります。 とは言え、冗談でも何でもなく「全国津々浦々どこに行っても大学の新設データサイエンス学部の広告を見かける」*1というのが既に常態化している昨今では、これに類する話題は今後

    「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ
  • データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ

    前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。 しかし、それは同時に「データセットが持つ質的な性質」と「データ分析手法の性質」とのミスマッチと、それが引き起こす問題とについてこれまであまり関心を持ってこなかった人が多いということなのかもしれません。そして、そのミスマッチは冗談でなく古来からある程度定まった類型があり、データ分析業界の古参なら「そんなの常識だよ」というものばかりだったりします。 ところが、最近僕の周囲でもそういうミスマッチが深刻な実問題を招いているケースが散見され、思ったよりもそれは常識ではないのかな?と思わされることが

    データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ
  • グアムに行ってきました - 渋谷駅前で働くデータサイエンティストのブログ

    Hafa Adai!!*1 6月中旬、夏至のちょっと前にグアムに行ってきました。コロナ禍以降これまで全く海外に行っておらず、また昨年5月にDVT(深部静脈血栓症)に罹ってから*2は飛行機にすら乗っていなかったので、その両方を今回ようやく解禁したという次第です。 行き先をグアムにした理由は幾つかあるんですが、1つ目は飛行機で4時間未満しかかからず「海外としては極めて近い」ということ。2つ目は時差が1時間しかないということ。3つ目は「南の島でゆっくりしたかった」ということ。1・2番目は主にDVT*3を慮った結果なんですが、3番目に関しては10年前にも行ったサイパンでも良かったんですよね。ただ、サイパンは今でも直行便が少なく不便なのに対して、グアムの方が直行便が多くて尚且つ我が家ではまだ行ったことがなかったので、今回はグアムを選んだのでした。 ということで、我が家としては事前に期待した以上にグア

    グアムに行ってきました - 渋谷駅前で働くデータサイエンティストのブログ
    ET777
    ET777 2023/06/25
  • 「データ分析の民主化」の在り方を、「社員全員Excel経営」が「社員全員データサイエンス経営」へと進化していった事例に見る - 渋谷駅前で働くデータサイエンティストのブログ

    以前こんな記事を書いたことがあります。 「社員全員Excel経営」で名高い、ワークマン社のサクセスストーリーを論評したものです。2012年にCIOに就任した土屋哲雄常務のリーダーシップのもと、取引データの完全電子化を皮切りに「全社員がExcelを使いこなして数字とデータで経営する」戦略へと移行し、社内のExcelデータ分析資格を一定以上取得しないと管理職に昇進できないとか、はたまた幹部クラスの企画・経営会議ではデータに基づかない議論や提案は相手にすらされないとか、「Excelを社員全員が使えるようになるだけでもここまで企業カルチャーは変わり得るのか」という事例のオンパレードで、関連記事や書籍を読んでいて舌を巻いたのを覚えています。まさしく「ワークマンのすごいデータ活用」だったのです。 一方、個人的に強く印象を受けたのが土屋常務が様々なところでコメントしていた「我が社には突出したデータサイエ

    「データ分析の民主化」の在り方を、「社員全員Excel経営」が「社員全員データサイエンス経営」へと進化していった事例に見る - 渋谷駅前で働くデータサイエンティストのブログ
    ET777
    ET777 2022/12/12
    ワークマンの事例
  • 1