タグ

統計学に関するinnate8のブックマーク (12)

  • データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ

    追記(2017年7月) こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、 みどりぼん程度の統計学の知識 はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書ける というのが全員の最大公約数=下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト()募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。 統計学の知識は「みどりぼん以上」 データ解析のための統計モデリング入門――一般化線形モデル・階層

    データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
  • コラム別に読む : 統計学を知る 佐藤俊樹さんが選ぶ本 - 佐藤俊樹(東京大教授・社会学) | BOOK.asahi.com:朝日新聞社の書評サイト

    ■どんな場合に使えないのか 統計は今、何度目かのブームにある。「最強」と謳(うた)うが30万部も売れ、一般の人向けのセミナーも好評のようだ。私も大学では1・2年生向けの統計を担当しているが、4、5年前から学生の数が急増して、教室と教員の手当てに毎年汗をかく。 「統計」の2文字には神秘的な魔力があるらしい。よく知らない人も、いやむしろ知らない人ほど変に持ち上げたりする。 ■ブームの切実さ しかし、今回のブームはもっと切実な中身があるようだ。今の私たちは、良い意味でも悪い意味でも、リスクとつきあって生きていかざるをえない。この数年で、そのことを痛いくらい経験させられた。 金融や市場の開拓だけでない。例えば「原発は絶対安全だ」と信じようとしたり、「減災よりも防災、防災よりも地震予知」と、リスクをリスクとして見ないようにしてきた。それがかえって大きな被害をうむことがある、と気づかされたのだ。そう

    コラム別に読む : 統計学を知る 佐藤俊樹さんが選ぶ本 - 佐藤俊樹(東京大教授・社会学) | BOOK.asahi.com:朝日新聞社の書評サイト
  • 「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

    先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。 今回も参考文献は久保です。一般化線形モデルまわりではこのより分かりやすいは依然としてないと思います。 データ解析のための統計モデリング入門――一般化線

    「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ
  • いつのまにか、ぼくの本の電子書籍が出たようです - hiroyukikojima’s blog

    ダイヤモンド社の担当編集者から、拙著『完全独習 統計学入門』ダイヤモンド社の電子書籍版が刊行された、という連絡を受けたので、せっかくだから当ブログで宣伝しておこうと思う。キンドル版へのリンクは以下。 完全独習 統計学入門 作者: 小島寛之出版社/メーカー: ダイヤモンド社発売日: 2013/06/17メディア: Kindle版この商品を含むブログ (2件) を見る楽天だと 楽天Kobo電子書籍ストア: 漫画小説がアプリで今すぐ読める! hontoだと、 完全独習 統計学入門の電子書籍 - honto電子書籍ストア このは、今年だけで(まだ6月なのに)すでに3回も増刷がかかった。ダイヤモンド社の西内啓『統計学が最強の学問である』が爆発的に売れていて、そのおこぼれにあずかっているのだと思う。実際、『最強』書評を日経から頼まれて、「今を読み解く」というコーナーで統計学について書いた。この

    いつのまにか、ぼくの本の電子書籍が出たようです - hiroyukikojima’s blog
  • 統計の基本事項

    トップページ→研究分野と周辺→システムの評価→ 基統計量 平均(算術平均)値は、(データ値の総和)÷(データ数)となる。(或るデータの値)-(平均値)を、そのデータの偏差という。偏差の絶対値の大きいデータが多ければ、そのデータ群はばらつきが大きい。データ群のばらつきの大きさを単純に偏差の総和とすると、偏差には正負があるので相殺されてしまう。 そこで、各データの偏差を二乗する(こうすれば必ず正の値になる)。(各データの偏差の二乗の総和)÷(データ数)をそのデータ群の分散と呼び、ばらつきの大きさを表す。また、分散の平方根を標準偏差という。英語では偏差はDeviation、分散はVariance、標準偏差はStandard Deviationとなるので、標準偏差はS.D.と略記される事も多い。 統計の最も基的な量である基統計量としては、他に最大値、最小値、範囲(最大値-最小値)、中央値(デ

  • 統計くん - 国勢調査を簡単にCSV化できる無料Webサービス

    統計情報を簡単にCSV化できる無料Webサービス統計くんは国勢調査を簡単にCSV化できるWebサービスです。 このサービスは、次世代統計利用システムのAPI機能を使用しています。 サービスの内容は総務省統計局又は独立行政法人統計センターによって保証されたものではありません。 運営&開発 satoru.net - お問い合わせ

    innate8
    innate8 2013/06/13
    SQLの勉強に使えそう
  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
  • 機械学習チュートリアル@Jubatus Casual Talks

    巷で話題の画像生成サービス, Stable Diffusion, Midjourney, DALL-E2 の基盤となる 生成モデルDiffusion Model の解説です。 機械学習の社会実装勉強会 第15回の発表内容です。 https://machine-learning-workshop.connpass.com/event/246825/

    機械学習チュートリアル@Jubatus Casual Talks
  • 今すぐ使える『明日からつかえるシンプル統計学』

    まちがえるな、統計学は道具だ。統計は学ぶものではなく、使うもの。 これはわたし自身への戒言。だから、使い方を誤らない程度に理解していればいいし、そのために教科書をイチから読み込む必要も、Rをマスターする必要もない。もちろん様々な武器(統計手法)が使えるに越したことはないが、次のような問題と向き合っているなら、書をオススメする。 あと500人お客を呼び込むためには、いくら広告費が必要か? カスタードケーキがチョコパイに勝つには、「味の改良」と「販促キャンペーン強化」のどちらが有効か? クラス全体の成績が低迷している。国語と数学の両方が苦手な生徒だけ補習したほうがいいのか、全員に国語の補習をしたほうがいいのか 前任者から引き継いだデータが大量にあるが、それぞれの関係や着眼点がまとめられてない。どこから手をつければいいか? 社内のKPI(Key Performance Indicator :

    今すぐ使える『明日からつかえるシンプル統計学』
  • 佐藤吉宗先生の統計学入門(1)-偽陽性問題-

    Yoshihiro Sato @yoshisatose 最近、TLで偽陽性の話題を目にするので、一つ練習問題を紹介します。これは昨秋、私が担当している統計学(1年生向け)の試験で出題した問題で、あとで複数の学生から「とても面白い問題だった」という反応がありました。「ベイズの定理」の問題なので、分かる人には簡単です。四則演算で解けます。 Yoshihiro Sato @yoshisatose 【問題】 人口の5%がある病気に罹っているとします。この病気に罹っているかどうかを確かめる検査があるのですが完全なものではなく、病気に実際に罹っている人が受けると90%の確率で陽性となり、病気に罹っていない人が受けると90%の確率で陰性と出ます。(続く…)

    佐藤吉宗先生の統計学入門(1)-偽陽性問題-
  • 【データ分析】『統計学が最強の学問である』西内 啓 : マインドマップ的読書感想文

    統計学が最強の学問である 【の概要】◆今日ご紹介するのは、先日の「未読・気になる」の記事でも人気だった1冊。 サブタイトルとして「データ社会を生きぬくための武器と教養」とあり、なるほどそうだと感じいりました。 アマゾンの内容紹介から一部引用。あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。 「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人が、その当の魅力とパワフルさを知っているだろうか。 私はぶっちゃけ「超文系人間」ですが、書に目を通しておいて良かったと思っております。 いつも応援ありがとうございます! 【ポイント】■1.統計的にあみだくじは端が当たりにくい 友人たちのクセなのか、人間心理の傾向なのか、両端の縦棒を先に選ばれたことはほ

  • WEBで読める統計関係の良質な資料 - Interdisciplinary

    私がよく参考にする所を三箇所紹介します。いずれも、説明が極めて明瞭で、論理的な整合性や用語の丁寧な使い方を志向している所に好感が持てるサイトです。 ▼Econom01 Web Site, Sophia University, Tokyo, Japan 上智大学の大西博氏のサイト。私が統計関連で最もよく参照する所です。説明の仕方の明瞭さや、具体例を用いた解説がとても良いと思います。確率統計の一つ一つの概念について、大変丁寧に説明されています。たとえば、「相関(および因果関係)」については、 2つの変数の同時分布と、その条件付き分布は、変数の間の数量的結び付きを示しています。この数量的結び付きは、統計的頻度分布として観察されるものであり、現象の背後にある実態的な「関係」や「構造」から導かれる法則性を必要としません。 例えば、人間の身長と体重とは密接な統計的分布関係を持っていますが、両変数を決定

    WEBで読める統計関係の良質な資料 - Interdisciplinary
  • 1