データサイエンスに関するenjoymoon2のブックマーク (32)

  • 仮説検定とP値|佐藤俊太朗(生物統計学・疫学)のHP

    X上でもたびたび議論にあがる仮説検定やP値についてまとめた資料です.ポイントは,P値の定義を端折るのは難しいけど,「矛盾の程度」を導入することでイメージしやすくなるかもしれない検定を繰り返すことで発生...

    仮説検定とP値|佐藤俊太朗(生物統計学・疫学)のHP
  • 実務につなげる数理最適化

    はじめに はじめまして、2023年10月にシニアリサーチャーとして入社したアドバンスドテクノロジーラボ(ATL)の梅谷俊治です。2023年9月まで、大阪大学大学院情報科学研究科にて数理最適化寄附講座教授を務めていました。 記事では、リクルートのデータ推進室における数理最適化を活用した問題解決の取り組みをご紹介します。 数理最適化は、与えられた制約条件の下で、目的関数を最小(もしくは最大)にする最適化問題を通じて、現代社会における意思決定や問題解決を実現する数理技術の一つです。 近年では、機械学習によるデータ分析や予測の技術開発が進み次々と実用化されています。数理最適化は、それらのデータ分析や予測の結果を踏まえた上で意思決定や計画策定を実現する問題解決における出口を担当する技術です。例えば、オンライン広告などカスタマーに商品を推薦するレコメンデーションでは、機械学習を活用してカスタマーの商

    実務につなげる数理最適化
  • 究める!実験計画法

    「実験計画法がよくわからない」、「実験計画法は多くの教科書があるけど、どれもよくわからない」など、疑問に思いませんか? おさえておきたいポイント ➀実験計画法が究められる学び方 ②実験計画法はなぜ難しいのか? ③実験計画法を究める学び方を開発 ④データの構造式をおさえたら実験計画法は究められる ⑤よく誤解される実験計画法あるある ⑥実験計画法が究められる学び方(もっかい) 記事の信頼性 記事を書いている私は、QC検定®1級合格した後、さらに実験計画法に磨きをかけていますので、わかりやすく解説します。 QC模試受験しよう!

    究める!実験計画法
  • データサイエンスを独学した1年間をまとめてみた。 - Qiita

    1 はじめに データサイエンスに興味をもった大学生が1年間の勉強の振り返りをする記事です! ではさっそく題に入ります! 2 この記事の目的 ① 自分の学習の整理 1年間くらいやっていると、今までどういった学習をしてきたか忘れてきます。 いったん整理し今後の勉強に活かしたいという想いからです。 なので主観的な表現が多く読みづらいかもしれません。 なにか質問・意見がございましたらコメントお願いします。 ② 初学者の方に参考に! シンニホンという書籍でも書かれていましたが、今後より多くの人がデータサイエンス学び始めると思います。 自分もこのを読んで将来この分野で活躍したいと考え、学習を格的にはじめました。 そこで初学者の方にこの記事を参考にしてもらえればなと考えました。 3 勉強する上で意識したこと ① 証明できるスキルをつけること 資格は目標が見えやすく、モチベーションが保てるために取得

    データサイエンスを独学した1年間をまとめてみた。 - Qiita
  • 頭の中に数学の地図を作ろう

    頭の中に数学の地図を作ろう Make a mathematical map in your head 2023.07.03 Updated by Atsushi SHIBATA on July 3, 2023, 10:16 am JST 今回紹介する書籍:『数学文化』赤 攝也(ちくま学芸文庫、2020) 抽象化の重要性 小学生の長男の勉強を見てやっていると、算数の教材に「□×4-3-5=8」のような問題が出てきます。「穴あき算」「虫い算」と呼ばれる計算です。この種の課題は、大人が見ると四角をx(エックス)に見立てた方程式に見えるので、数を移項して「x=」の式にすることで答えを出そうとします。 この「移項をすると符号が反転する」というのを、小学生くらいの子供に教えるのはとても大変なのですが、子供に理解してもらうには、計算を手順に分解して教えます。「最後に5を引いて8になったのだから、その

    頭の中に数学の地図を作ろう
  • なぜ、微積分は役に立つのか

    なぜ、微積分は役に立つのか 2023.11.27 Updated by Atsushi SHIBATA on November 27, 2023, 14:58 pm JST 今回紹介する書籍:『はじめての物理数学』永野 裕之(SBクリエイティブ、2017) 朝起きてから寝るまで、我々は何種類もの「数」を見ます。 私自身、朝起きるとネットやニュースで降水確率、予想気温のように気象にかかわる数、為替、海外の株式市場の指数など、いろいろな種類の数をチェックします。しばらく前なら、コロナウイルスの感染者数や増加傾向を表す指数を毎日のように確認していました。 自分を取り巻く環境を知るために、私たちはいろいろな「数」を確認します。そして数を手がかりにして、行動を決めます。現代を生きる私たちにとって「数」は、世界を知るための「目」としての役割を持っています。 現代人が日常的に見るこの種の数は、たいてい計

    なぜ、微積分は役に立つのか
  • 総務省統計局 データサイエンス・オンライン講座 社会人のためのデータサイエンス入門

    統計データを用いた分析事例を知り、 統計リテラシーを学ぶ ・大人がデータサイエンスを学ぶべき理由 ・統計データからわかること① ・統計データからわかること② ・統計データからわかること③ ・統計リテラシーの重要性 ・統計を利用する際の注意点 データ分析に必要な統計学の基礎を学ぶ ・データの種類 ・代表値~平均・中央・最頻値 ・ヒストグラムと相対度数 ・四分位・パーセンタイル・箱ひげ図 ・分散・標準偏差 ・相関関係 ・回帰分析 ・標分布 ・信頼区間 データの見方と 適切なグラフの選び方を学ぶ ・統計表の見方 ・比率の見方①-クロスセクションデータ- ・比率の見方②-使い方と注意点- ・時系列データの見方① ・時系列データの見方② ・グラフの選び方① ・グラフの選び方② ・グラフを作る時・読む時の注意点 誰もが使える公的統計データの取得方法と 使い方を学ぶ ・公的統計とは ・公的データの入手

    総務省統計局 データサイエンス・オンライン講座 社会人のためのデータサイエンス入門
  • ABテストが難しい場合の施策効果の評価・推定方法

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括部でデータ分析による社内サービスの課題解決支援をしている関口です。 ヤフーではたくさんのABテスト(※1)が常に行われており、サービス改善に活かされています。しかしながら実際には、さまざまな理由からABテストができないことがよくあります。記事では、そのような場合にどのようにして施策の効果を評価・推定するかについて、具体的なケースからアイデアを紹介していきます。 なお今回はYahoo!ショッピングを題材にしたケースばかりですが、アイデア自体は汎用的なものとなっています。 ※1: ABテストはウェブサービス上のUI改善、機械学習モデル改善、機能追加etc.といったさまざまな施策が、KPIにどれくらいのイン

    ABテストが難しい場合の施策効果の評価・推定方法
  • はじめに — 機械学習帳

    import torch x = torch.tensor([1., -1.]) w = torch.tensor([1.0, 0.5], requires_grad=True) loss = -torch.dot(x, w).sigmoid().log() loss.backward() print(loss.item()) print(w.grad)

    はじめに — 機械学習帳
  • データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA

    みなさんこんにちは。くにです。 データ分析の世界に足を踏み入れてから9年が過ぎました。 分析実務未経験でキャリアチェンジできたのは幸運としか言えませんが、ある意味無知だったからこそ無謀な挑戦ができたのかもしれません。この挑戦の泥臭い記録は、この記事に書きました。 ポジションは変われど、データを扱う仕事をまだ続けています。 私は実務で手を動かしつつ、不格好に失敗しながら学んできました。わからないことにぶつかるたびにを買い、そのでわからないことがあればまた屋に行き、自分が少しでも理解できそうなを探して買いました。そして、気になる参考文献があれば、それも買って読んでみる…。 こんな生活を続けているうちに、部屋がだらけになってしまいました。 正直に言って読み切ったという実感のあるはありません。しかし、実務で何かしらお世話になったは数多くあり、そういうは手放さずに手元に置いています。

    データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA
  • [数理統計学]統計的検定のまとめ – かものはしの分析ブログ

    都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト 通勤電車のなかで私が勉強する用のシリーズ第5弾です。今回は統計的検定についてまとめておこうと思います。 【これまでのシリーズへのリンク】 ・[数理統計学]統計的推定のまとめ ・[数理統計学]正規分布から導かれる分布(カイ二乗分布/t分布/F分布)の期待値と分散の導出まとめ ・[数理統計学]連続型確率分布の期待値と分散の導出まとめ ・ [数理統計学]離散型確率分布の期待値と分散の導出まとめ 目次 統計的仮説検定 検出力 一様最強力検定 ネイマン-ピアソンの基定理 不偏

    [数理統計学]統計的検定のまとめ – かものはしの分析ブログ
  • フツーの会社でフツーに働く人にオススメするAI・データサイエンティスト本12選|マスクドアナライズ

    ここ数年「もう終わりだろう」と言われ続けたAIブームは、コロナウイルスによってタピオカ屋を巻き込んでトドメを刺された。自宅作業を「WFH」と呼び、同僚や取引先とはZoomでコミュニケーションを取っている。息抜きにNetflixやYoutubeを見て、「AIは『テレワーク』と『DX』に話題も予算も奪われたな」と思ったりする。だがこれは、IT業界で働く人間の姿だ。 一方で自宅で仕事ができない方々も多く、否応なく出勤する光景は日常となった。仕事から帰って息抜きにテレビをつければ「スーパー派遣社員とAIでリストラ」なドラマや、倍返しの人がITリテラシーとコンプライアンスを無視した銀行で歌舞伎役者による顔芸勝負を見て、「月曜日なんてなければいいのに」と思っている。 つまりIT業界のイキリツイッタラーである我々と、現場で働きながら社会を動かす皆様では、住む世界も見ている光景も異なる。むしろ「当然のよう

    フツーの会社でフツーに働く人にオススメするAI・データサイエンティスト本12選|マスクドアナライズ
  • ディープラーニングは万能なのか l DataRobot

    プラットフォームの概要 AI Platform 生成 AIおよび予測 AIのプラットフォーム もっと詳しく ドキュメント 新機能 ログイン 無料で始める 運用 自信を持ってAIを拡張し、比類のないエンタープライズ・モニタリングとコントロールでビジネス価値を促進 デプロイと実行 再学習と最適化 監視と介入 ガバナンス AIの環境、チーム、およびワークフローを統合し、大規模な範囲での完全な可視性と監視を実現 レジストリと管理 監査と承認 コンプライアンスドキュメント生成 構築 ニーズの進化に合わせて自由に適応できるオープンなAIエコシステムで、迅速なイノベーションを実現 分析と変換 学習とチューニング 組立てと比較 プラットフォーム統合 インフラストラクチャーへのデプロイ ソリューション 業界ごと ヘルスケア 製造 小売業 金融サービス 成果ごと ユースケースのライブラリー お客様事例 Dat

    ディープラーニングは万能なのか l DataRobot
  • 機械学習や統計学を「社会実装」するということ - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) 最近になって、こんな素晴らしい資料が公開されていたことを知りました。 この資料自体は著者のMoe Uchiikeさんが東大での講義に用いられたものだとのことですが、その内容の汎用性の高さから「これは全ての機械学習や統計学を実務で用いる人々が必ず読むべきドキュメント」と言っても過言ではないと思われます。 正直言ってこの資料の完成度が高過ぎるのでこんなところで僕がああだこうだ論じるまでもないと思うので、内容の詳細については皆さんご自身でまずは上記リンクから精読していただければと思います。その上で、今回の記事では「機械学習や統計学を『社会実装』する」ということがどういうことなのかについて、この資料を下敷きとした上でさらに僕自身の経験や見聞を加えて考察したことを綴ってみます。 機械学習や統計学と、社会との「ギャップ」 機械学習や統計学を、社会に「馴染ませる」

    機械学習や統計学を「社会実装」するということ - 渋谷駅前で働くデータサイエンティストのブログ
  • データサイエンティスト協会、IPAと共同で『データサイエンティストのためのスキルチェックリスト/タスクリスト概説』を刊行 | 一般社団法人データサイエンティスト協会

    2024年5月10日 金曜日 デジタルPRとプレスリリース配信 お問い合わせinfo@digitalpr.jp受付 10:00〜18:00(土日祝日を除く) 一般社団法人データサイエンティスト協会(所在地:東京都港区、代表理事:草野 隆史、以下 データサイエンティスト協会)は、独立行政法人情報処理推進機構(所在地:東京都文京区、理事長:富田 達夫、以下IPA)と共同で、『データサイエンティストのためのスキルチェックリスト/タスクリスト概説』を刊行することをお知らせします。 書は、今必要とされるデータ利活用のためのスキルを体系化した「スキルチェックリスト」と業務プロセスを体系化した「タスクリスト」を読み解くための初の公式ガイドブックです。 『データサイエンティストのためのスキルチェックリスト/タスクリスト概説』表紙(出典:IPA) 『データサイエンティストのためのスキルチェックリスト/タス

    データサイエンティスト協会、IPAと共同で『データサイエンティストのためのスキルチェックリスト/タスクリスト概説』を刊行 | 一般社団法人データサイエンティスト協会
  • COVID-19 日本国内の潜在的な陽性者数を推定する試み - StatModeling Memorandum

    国内の潜在的な陽性者数を推定することは有益ですが、簡単ではありません。PCR検査がランダムになっていないことが推定を難しくしています。有症状者が検査されやすいというselection biasがあるからです。この記事ではいくつか仮定を置いて潜在的な陽性者数を推定したいと思います。 仮定 全国民のうち潜在的に陽性になっている割合 この割合は年代によらず一定と仮定します。ここでは と書きます(posはpositiveの略)。例えば0.0001なら日人約1億2千万人中、おおよそ12000人が潜在的に陽性になっている計算です。 なお、国民の年代別人口の値はこのページの令和2年3月報 (令和元年10月確定値,令和2年3月概算値) (PDF:301KB) の「2019年10月1日現在(確定値)」の総人口 男女計の値を使用しました。 陽性者中の有症状者の割合 若年層で無症状が多いなど、年代で異なる

    COVID-19 日本国内の潜在的な陽性者数を推定する試み - StatModeling Memorandum
  • データ視覚化のプロが選ぶデータ分析のオススメ本32選

    データ分析&データ視覚化のコンサルティングをしております、永田ゆかりと申します。 これまで2000人以上の方にデータ分析や活用の研修・トレーニング講師、企業への分析コンサルティングをさせていただいており、仕事をさせていただく中で必要なを読み続けているうちに、気がついたらデータ分析領域のを200冊以上読んでいました。 中でもデータビジュアライゼーション・視覚化の領域に関しては私自身の得意領域ということもあり、数多く読み込んでいます。 記事では数多くのクライアントの方々との問題解決に役立った知識・ノウハウが書かれている良書をご紹介させていただきますので、是非最後までご覧ください。 データ可視化そのものについて知りたいたは、こちらの記事からどうぞ。 データ可視化とは?その重要性や手法、よくある課題と解決策を解説 データ分析における視覚化(ビジュアライゼーション)系のおすすめの17選1 S

    データ視覚化のプロが選ぶデータ分析のオススメ本32選
  • ビジネスで使えるPythonを使った統計的データ分析手法まとめ - Qiita

    概要 WEB系のサービスで色々な試作を実施した後に効果を検証するのは非常に重要だと思いますが、 そのやり方として基的な統計学が十分に使えると思っています。 今回は基的な統計学からビジネスで使える試作の効果検証、データ分析を目的にPython+JupyterLab(Docker)を使った統計的データ分析のやり方をまとめました。 また今回使ったnotebookは以下にもありますのでご参考ください。 https://github.com/hikarut/Data-Science/tree/master/notebooks/statisticsSample 環境 以下を参考にDockerでJupyterLabが使える状態を前提とします。 Dockerで起動したJupyterLabでvimキーバインドを使う

    ビジネスで使えるPythonを使った統計的データ分析手法まとめ - Qiita
  • Python初心者向けの実践的なチュートリアルまとめ!5つの学習手順も解説 - DAINOTE

    STEP1 まだPythonに触れたことがない人 → まずはPythonの基礎を学ぼう まずはPythonの基礎を学びましょう。なんの応用をやるにしても、基礎を学習する必要があります。 実際にコードを書くときに、 文字列等の基的な型の知識 if文 for文 while文 関数文 クラス などはしっかりと理解しておく必要があります。 Pythonの基礎を学べるサイト Python の基礎を学ぶにはProgateが一番おすすめです。 Progateがおすすめな理由は オンライン上で環境構築を一切する必要がなく、ブラウザで学べる → どのPCでもインターネットさえ開けば学べる エラーが初心者用にわかりやすくなっているので、Progateで学べば自己解決する力がつきやすい からです。個人的には書籍などで学ぶよりも、実際にコードを書いて学んだ方が効率的だと思います。まずはプロゲートを使って Pyt

    Python初心者向けの実践的なチュートリアルまとめ!5つの学習手順も解説 - DAINOTE
  • 機械学習モデルを作成する - Training

    Microsoft Learn では、対話的な方法で、従来の機械学習の概要を理解することができます。 これらのラーニング パスは、ディープ ラーニングのトピックに移行するための優れた基盤にもなり、各自の生産性を向上させます。 最も基的な従来の機械学習モデルから、探索的データ分析やカスタマイジングのアーキテクチャまで、ブラウザーを離れることなく、概念的内容や対話型の Jupyter Notebook を簡単に把握することができます。 知識と興味に応じて自分のパスを選択してください。 オプション 1: 完全なコース: 機械学習のためのデータ サイエンスの基礎 ほとんどのユーザーには、このパスがお勧めです。 これには、概念の理解を最大限に高めるカスタム フローを備えた、他の 2 つのラーニング パスと同じモジュールがすべて含まれています。 基になる概念と、最も一般的な機械学習ツールでモデルを構

    機械学習モデルを作成する - Training