タグ

2015年9月22日のブックマーク (4件)

  • 「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ

    何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す

    「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
  • テキストマイニングのための機械学習超入門 二夜目 パーセプトロン - あんちべ!

    一夜目はパターン認識と機械学習の概要を学びました。今夜は、識別部で用いられる機械学習の基的な線形識別器である「パーセプトロン」を具体的に学びたいと思います。「線形識別器?パーセプトロン?何それ?」字面は厳しいですが、手を動かしてみると意外と簡単に理解できます。今夜からは数式をバリバリ使っていきますし、手を動かしていただきます。「必ず」手元にペンと紙を用意してください。そうは言ってもパーセプトロンが一体何なのか、機械学習の中でどのような位置づけなのかがわからないと混乱するかもしれません。パーセプトロンの説明へ入る前に、機械学習の3つのアプローチをご紹介します。 ●機械学習の3つのアプローチ - 識別関数、識別モデル、生成モデル 機械学習は大きく分けて識別関数、識別モデル、生成モデルという3つのアプローチがあります。 識別関数 := 入力データを見て、特定のクラスに属するよう識別(代表的な手

    テキストマイニングのための機械学習超入門 二夜目 パーセプトロン - あんちべ!
  • Rと集団学習

    集団学習(ensemble learning)は、決して精度が高くない複数の結果を統合・組み合わせることで精度を向上させる機械学習方法である。複数の結果の統合・組み合わせの方法としては、分類問題では多数決、数値の予測(回帰)問題では平均が多く用いられている。 集団学習では、異なる重み、あるいは異なるサンプルから単純なモデルを複数作成し、これらを何らかの方法で組み合わせることで、精度と汎化力を両立するモデルを構築する。 稿では、集団学習方法による、回帰・分類のアルゴリズムバギング(bagging)、ブースティング(boosting)、ランダム森(random forest)の基概念およびこれらのRのパッケージと関数を紹介する。 機械学習の問題では、学習によって回帰・分類を行うシステムを学習機械と呼ぶ。文献によっては学習機械を仮説(hypothesis)、分類器・識別器(classi

  • 『入門 機械学習』第3章:ベイズスパム分類器の作成 - StatsBeginner: 初学者の統計学習ノート

    けっこうやっかいな教科書 オライリーの『入門 機械学習』という教科書を、半年ぐらい前に3分の1ぐらい読んで、内容をまとめたりはせずにほっといたのですが、このたび実際にRでコードを写経しながら走らせてみたりしたので、学習ノートとしてエントリを起こしておこうかと思います。 入門 機械学習 作者: Drew Conway,John Myles White,萩原正人,奥野陽,水野貴明,木下哲也出版社/メーカー: オライリージャパン発売日: 2012/12/22メディア: 大型購入: 2人 クリック: 41回この商品を含むブログ (11件) を見る 機械学習の入門的な教科書としては、理論のとして『わかパタ』『続・わかパタ』をそれぞれ途中まで読んだという中途半端な状態ですがw、コーディングのとしては、RでやるものとPythonでやるものを1冊ずつぐらいやろうかなと思っておりました。 それでRのも

    『入門 機械学習』第3章:ベイズスパム分類器の作成 - StatsBeginner: 初学者の統計学習ノート