タグ

機械学習と統計に関するslay-tのブックマーク (8)

  • 今起きている革命、「因果革命」とは - Qiita

    みなさまは"The Causal Revolution" (因果革命)という言葉を聞いたことがあるでしょうか? 私は今月(2021年6月)に初めて知りました。Google Trendsでもデータ不足によりトレンドが表示されません。 つまりまだ全然マイナーな概念で、聞いたことがないほうが自然かと思われますが、これは「来る」と確信したため記事を投稿しました。この確信の根拠の箇所を記事中で太字で書いた他、最後にもまとめたため、記事を読む価値がありそうかの判断には先にそちらを読んでもらってもいいかもしれません。しかしながら、因果革命ないし統計的因果推論は学ぶ価値のある分野です。記事を読まなくても下記に挙げた書籍を未読の方はぜひ一読してみてください。Qiitaでも因果推論についての記事はいくつもあります。しかし、私が感動した点を明示化した記事は見当たらなかったため記事を投稿しました。 この記

    今起きている革命、「因果革命」とは - Qiita
  • CTR予測における確率補正について - MicroAd Developers Blog

    はじめに こんにちは. マイクロアドで機械学習エンジニアをしている福島です. 主に広告のClick Through Rate (CTR)予測やReal-Time-Bidding (RTB)の入札最適化を担当しています. 今回はマイクロアドでのCTR予測における確率補正について紹介したいと思います. はじめに CTR予測とは 問題1 学習データが不均衡 問題2 機械学習モデルの出力を確率として扱うのは不適切な場合がある 問題3 学習データの信頼度が高くない CTR予測における確率補正 アンダーサンプリングによって生じたバイアスの除去 Isotonic Regressionによる確率補正 確率補正の効果検証 終わりに CTR予測とは RTBでは下図のように, 広告主とメディア間でリアルタイムにオークションが開催され, オークションに勝利した広告がメディアに表示されます. マイクロアドでは現在オ

    CTR予測における確率補正について - MicroAd Developers Blog
  • 機械学習や統計学を「社会実装」するということ - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) 最近になって、こんな素晴らしい資料が公開されていたことを知りました。 この資料自体は著者のMoe Uchiikeさんが東大での講義に用いられたものだとのことですが、その内容の汎用性の高さから「これは全ての機械学習や統計学を実務で用いる人々が必ず読むべきドキュメント」と言っても過言ではないと思われます。 正直言ってこの資料の完成度が高過ぎるのでこんなところで僕がああだこうだ論じるまでもないと思うので、内容の詳細については皆さんご自身でまずは上記リンクから精読していただければと思います。その上で、今回の記事では「機械学習や統計学を『社会実装』する」ということがどういうことなのかについて、この資料を下敷きとした上でさらに僕自身の経験や見聞を加えて考察したことを綴ってみます。 機械学習や統計学と、社会との「ギャップ」 機械学習や統計学を、社会に「馴染ませる」

    機械学習や統計学を「社会実装」するということ - 渋谷駅前で働くデータサイエンティストのブログ
  • 機械学習で入ってはいけないデータが混入する「リーケージ」とその対策

    機械学習で入ってはいけないデータが混入する「リーケージ」とその対策:もう失敗しない!製造業向け機械学習Tips(1)(1/2 ページ) 製造業が機械学習で間違いやすいポイントと、その回避の仕方、データ解釈の方法のコツなどについて、広く知見を共有することを目指す連載。第1回では「リーケージ」について取り上げる。 ⇒連載「もう失敗しない!製造業向け機械学習Tips」バックナンバー 筆者はデータサイエンティストとして、機械学習自動化プラットフォーム「DataRobot」の導入サポートをさまざまな製造業のクライアントに提供してきました。連載では、その経験に基づいてお話させていただきます。 機械学習が使われる製造業特有の分野は、物性予測、工程管理、予防保全、故障予測、要因分析など多岐にわたります。しかし筆者は、それらの多くで同様のミスが繰り返されていることに気が付きました。これらの間違うポイント

    機械学習で入ってはいけないデータが混入する「リーケージ」とその対策
  • 誤った図解から学ぶロジスティック回帰の性質 - ill-identified diary

    発端 www.datasciencecentral.com というData Science Central の記事が, "A good reminder that Data Science Central is completely insane" https://t.co/68esZTv88d— mat kelcey (@mat_kelcey) 2018年5月22日 (Data Science Central が完全にデタラメであることを思い出させてくれる好例) とひどい言われようである. 何がおかしいのかPython で同様の図を作ってみる. boundary の関数が何なのかはわからないが, 忖度してロジスティック曲線 を使って表してみた*1. 一方で, よく見かけるロジスティック回帰の図解はこれだろう. なにかがおかしい. ロジスティック回帰は2通りに分類するものだから, 目的変数

    誤った図解から学ぶロジスティック回帰の性質 - ill-identified diary
  • 「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ

    何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す

    「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
  • 機械学習を初めて勉強する人におすすめの入門書 - old school magic

    概要 私が機械学習の勉強を始めた頃、何から手を付ければ良いのかよく分からず、とても悩んだ覚えがあります。同じような悩みを抱えている方の参考になればと思い、自分が勉強していった方法を記事にしたいと思います。 目標としては、機械学習全般について、コンパクトなイメージを持てるようになることです。 そのためにも、簡単なから始めて、少しずつ難しいに挑戦して行きましょう。 入門書 何はともあれ、まずは機械学習のイメージを掴むことが大切です。 最初の一冊には、フリーソフトでつくる音声認識システムがおすすめします。 フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで 作者: 荒木雅弘出版社/メーカー: 森北出版発売日: 2007/10/17メディア: 単行(ソフトカバー)購入: 45人 クリック: 519回この商品を含むブログ (38件) を見るレビュー :

    機械学習を初めて勉強する人におすすめの入門書 - old school magic
  • 機械学習アルゴリズムへの招待 | POSTD

    機械学習の問題 については以前に紹介したので、次はどんなデータを収集し、どんな機械学習アルゴリズムを使うことができるのかを見ていきましょう。投稿では、現在よく使用されている代表的なアルゴリズムを紹介します。代表的なアルゴリズムを知ることで、どんな技法が使えるかという全体的なイメージもきっとつかめてくるはずですよ。 アルゴリズムには多くの種類があります。難しいのは、技法にも分類があり拡張性があるため、規範的なアルゴリズムを構成するものが何なのか判別するのが難しいということですね。ここでは、実際の現場でも目にする機会の多いアルゴリズムを例にとって、それらを検討して分類する2つの方法をご紹介したいと思います。 まず1つ目は、学習のスタイルによってアルゴリズムを分ける方法。そして2つ目は、形態や機能の類似性によって(例えば似た動物をまとめるように)分ける方法です。どちらのアプローチも非常に実用的

    機械学習アルゴリズムへの招待 | POSTD
  • 1