2013年8月7日のブックマーク (4件)

  • 単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ

    一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。 なので、普段はDB上でSQL(というかHiveなど)でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。 ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり

    単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ
  • プログラミングのための線形代数 - 『プログラミングのための確率統計』下書き

    出版企画以前から公開していた下書きです. 原稿 PDF のダウンロード (下書きのため誤りや抜けがあります) 冒頭 …… とりあえず雰囲気を見るにはこちら 全体 (約5MB) …… 7-Zipで圧縮されています (UNIX系ならp7zipが便利) 書籍との違い 素材(何をどんな方針で説明するか)は, 書籍+補足編とおおむね共通 素材をただ積み上げた状態なので, むだに長かったり話が前後したりレベルが乱高下したり 6章(推定と検定)・7章(擬似乱数)・各章末のコラム(計算機実験)・イラストは未収録 誤りもありますから鵜呑みにはしないでください 未修正の誤り(抄) 4.3.1 冒頭の引用: 「議論」→「話」 FAQ 8.12 の回答冒頭: 「、各列の和が 1 にならなかったり」を削除 2008年(平成20年)11月3日版からの主な修正点 FAQ 1.16 中の T(x,y) → 2 x + y

  • サービス終了のお知らせ - NAVER まとめ

    サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。

    サービス終了のお知らせ - NAVER まとめ
  • JIN'S PAGE

    R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK