タグ

ブックマーク / tjo.hatenablog.com (8)

  • ビジネスの実務で「因果」を推測するということ - 渋谷駅前で働くデータサイエンティストのブログ

    統計的因果推論と言えばすっかり統計学分野ではお馴染みのアプローチになった感があり、また機械学習分野でも扱うテーマが複雑化するにつれて注目が高まり続けているトピックスという印象があります。 このブログでも2016年ぐらいから因果推論に関する記事をちらほら書くようになり、僕個人にとってもまた因果推論と言えば馴染み深い概念になってきたという感があります。 一方で、ビジネス実務の現場においても「因果推論」という言葉は使われないにせよ、かなりはっきりと「因果」についての知見もしくは説明可能性が求められるようになってきた、という印象が個人的にはあります。それは良くも悪くもDXブームでありとあらゆるビジネスに関わる事由がデータ化され、「相関」だけなら簡単に見つけられるようになったことで、相関だけからは見えてこない「因果」をはっきりさせたいという願望が浮かび上がってきた、ということなのかもしれません。 そ

    ビジネスの実務で「因果」を推測するということ - 渋谷駅前で働くデータサイエンティストのブログ
  • エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ

    (『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんなも杓子もLLMに群がるが如き空前のブームを受けて、エンジニアデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊

    エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
  • 「あえて精度勝負をしない機械学習」という選択肢 - 渋谷駅前で働くデータサイエンティストのブログ

    少し前のことですが、こんな話題がありました。 自分がこれまで現職で手がけた機械学習ソリューションでは 1. そもそも「予測」ではなく「説明(解釈)」をアウトプットにする 2. クラス分類確率の高いものだけアウトプットし、低いものは「未定」扱いにして捨てる などという形で実務の現場で使ってもらってます。精度勝負をしないのも一つの解かと https://t.co/NmZJCPnue2— TJO (@TJO_datasci) 2021年8月29日 実際問題として「ある目的のために機械学習システムを開発し、非常に高精度のものが出来上がったが、結局色々あって実戦投入されなかった」という話は、自分の身の回りでも業界内の伝聞でも事欠きません。 しかし、機械学習と言えばどちらかというと「より精度の高いモデルを追い求める」試み、もう少し下世話に言うと「精度勝負」によって、連綿と発展してきたという歴史がありま

    「あえて精度勝負をしない機械学習」という選択肢 - 渋谷駅前で働くデータサイエンティストのブログ
  • 95%信頼区間の「95%」の意味 - 渋谷駅前で働くデータサイエンティストのブログ

    ふと思い立ってこんなアンケートを取ってみたのでした。 頻度主義統計学における「95%信頼区間」の95%というのは、以下のどちらだと思いますか— TJO (@TJO_datasci) 2021年7月16日 結果は物の見事に真っ二つで、95%信頼区間の「95%」を「確率」だと認識している人と、「割合」だと認識している人とが、ほぼ同数になりました。いかに信頼区間という概念が理解しにくい代物であるかが良く分かる気がします。 ということで、種明かしも兼ねて95%信頼区間の「95%」が一体何を意味するのかを適当に文献を引きながら簡単に論じてみようと思います。なお文献の選択とその引用及び解釈には万全を期しているつもりですが、肝心の僕自身が勘違いしている可能性もありますので、何かしら誤りや説明不足の点などありましたらご指摘くださると有難いです。 頻度主義において、95%信頼区間の「95%」は「割合」を指す

    95%信頼区間の「95%」の意味 - 渋谷駅前で働くデータサイエンティストのブログ
  • ディープラーニング(Deep Learning)の歴史を振り返る - 渋谷駅前で働くデータサイエンティストのブログ

    先日Quora日語版でこんな回答を書いたのですが、ついでなので少し文脈情報を付け足してブログの方に再録することにしました。理由は単純で、このブログでディープラーニングの歴史についてまとめた記事を今まで書いてきたことがなく、そしてブログ記事にした方がより認識違いや調査不足などについての指摘をもらいやすいと思われたからです。ということで、以下の説明に関してツッコミがあれば是非コメント欄などにお寄せくださいm(_ _)m (A Neural Network Playground) ディープラーニングを語る上で、その前史であるパーセプトロン、そして(人工)ニューラルネットワークの話題は欠かせません。以下大まかに説明していきましょう。(※歴史解説中では敬称略、各種用語は原則カナ表記*1) パーセプトロンの登場 ミンスキーによる批判と第1の冬の時代 誤差逆伝播学習則と中間層を用いたニューラルネットワ

    ディープラーニング(Deep Learning)の歴史を振り返る - 渋谷駅前で働くデータサイエンティストのブログ
  • 改めて、汎化性能と交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    追記 再現性をチェックする実験を後日実施しています。併せてお読みください。 以前こんな記事を書きました。 この辺の話はとっくの昔に常識になっていると思っていたのですが、昨今様々な「モデル」が提唱されて公の場で喧伝されることが増えてきており、その中には明らかにこれらの記事で指摘されている問題に引っかかっているものがあるようなので、注意喚起も兼ねて改めてブログ記事として書いてみようと思います。 追記 (May 08, 2020) 文中にも記事公開当初の初稿の時点でいくつか但し書きを入れてありますが、この記事で最も強調したかったことは「時系列データに対して多項式フィッティングを行うという来あり得ないモデリングのやり方であっても、交差検証を行えば短期的な予測性能(汎化性能)を改善することができる」ということです。データセットにランダムウォークを選択したのは、単に極値が2つ以上ある時系列を生成し

    改めて、汎化性能と交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ
  • 機械学習の説明可能性(解釈性)という迷宮 - 渋谷駅前で働くデータサイエンティストのブログ

    ちょっと前に、しょうもないことを某所で放言したら思いの外拡散されてしまいました。 機械学習の説明可能性(解釈性)、大半のケースで求められているのは厳密な分類・回帰根拠ではなく受け手の「納得感」なので、特に実ビジネス上は説明可能性に長けたモデルを開発するより、納得できないお客さんを巧みに関係性構築した上で口八丁で完璧に説得できる凄腕営業ピープルを雇う方が重要— TJO (@TJO_datasci) 2019年11月23日 これ自体は与太話なので実際どうでも良い*1のですが、最近色々な研究や技術開発の進展はたまた実務家による考察などを見ていて、「機械学習の説明可能性(解釈性)というのは思った以上に複雑な迷宮だ」と感じることがままあったのでした。 ということで、今回の記事では僕のサーベイの範囲でザッと見て目についた資料などを超絶大雑把にリストアップした上で、主に実務における説明可能性とは何かとい

    機械学習の説明可能性(解釈性)という迷宮 - 渋谷駅前で働くデータサイエンティストのブログ
  • 「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ

    何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す

    「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
  • 1