ブックマーク / tjo.hatenablog.com (3)

  • 「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ

    何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す

    「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
    SasakiTakahiro
    SasakiTakahiro 2015/09/18
    ということで、統計学「も」機械学習「も」理解するように努めましょう。
  • 今さら人に聞けない「重回帰分析の各手法の使い分け」 - 渋谷駅前で働くデータサイエンティストのブログ

    (※※※続編記事書きました→「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ) 今ちょうどadtech tokyo 2013の会期中で、職場からも近い&会社から行ってこいという指示が出たということで僕も色々セッションを聞いたり企業ブースのお話を聞いたりしてる*1ところです。 ところで、いくつかのセッションの中でキーワードとして「重回帰分析」という言葉が出てきてました。ま、それ自体はこのブログでもRによるデータ分析絡みで頻出だし、ぶっちゃけありふれた手法と言って良いでしょう。やりようによっては普通にExcelでもできますし、それだけ人口に膾炙していると言って良いのかもですね。 ただし。意外にも内部のパラメータというか細かい手法の分岐というか、それこそ普通の線形モデルvs.一般化線形モデル(バリエーション多数)があることを無視して漫然と重回帰分析をや

    今さら人に聞けない「重回帰分析の各手法の使い分け」 - 渋谷駅前で働くデータサイエンティストのブログ
    SasakiTakahiro
    SasakiTakahiro 2013/09/20
    一口に「重回帰分析」と言っても、きちんとデータの性質に基づいて様々な手法を使い分けるべきだという所以。
  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
    SasakiTakahiro
    SasakiTakahiro 2013/06/11
    この記事を「入口」として、めくるめくwebデータ分析&データサイエンスの世界へ。
  • 1