タグ

ブックマーク / tjo.hatenablog.com (4)

  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
    kukita
    kukita 2014/05/11
    【#R言語】統計学・機械学習系の分析手法10選。自分用メモφ(..) #分析 #データ #機械学習 #統計学 #データマイニング →
  • キャリアの途中で「今からデータサイエンティストに転じたい」と思ったらどうするべき? - 渋谷駅前で働くデータサイエンティストのブログ

    最近になって、前よりもさらに多くの方々から「データサイエンティストになりたいと思ってるんだけどどうしたらいいか」と相談されることが増えてきました。まぁ、これだけ新しいキャリアとして喧伝されていれば当然かと。。。 で、新卒ならどうしたら良いか?という話は既にしました。さすがに新卒だとデータサイエンティストを志望する人であってもそこまでスキルを持っていないのが普通*1なので、「少しでも経験を積みやすい企業に入りましょー」としか言いようがないんです実際。 しかしながら、新卒に比べて圧倒的に多いのは「今○○やっててこれからデータサイエンティストに転じたいんだけど。。。」という相談なんですよね。つまり中途というか、既に○○のキャリアの途中まで来たところでデータサイエンティストに転じよう、という。 ぶっちゃけ「データサイエンティストになれる人はなれるし、なれない人はなれない」以上のことは言いようがない

    キャリアの途中で「今からデータサイエンティストに転じたい」と思ったらどうするべき? - 渋谷駅前で働くデータサイエンティストのブログ
    kukita
    kukita 2013/10/20
    【統計学】キャリアの途中で「今からデータサイエンティストに転じたい」と思ったらどうするべき?自分用メモφ(..) #統計学 #データマイニング #データサイエンティス #キャリア →
  • 『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ

    執筆陣12人中8人が直接の知人友人というこの新刊書でございますが。 データサイエンティスト養成読 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus) 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋武彦,里洋平,和田計也,早川敦士,倉橋一成出版社/メーカー: 技術評論社発売日: 2013/08/08メディア: 大型この商品を含むブログ (4件) を見る もちろん僕も発刊が決まってAmazonに予約ページができた時点でポチりまして、読んでみたところあまりにも内容が素晴らしかったので早速現職場の図書コーナーに持ち込んだ次第です(笑)。ということで、僭越ながら書評など書かせて頂こうかと思います。 ざっくり内容紹介 正直言って、ものすごーーーく網羅的で非常によく出来ています。1ページ目から順に読んでいっても初学

    『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ
    kukita
    kukita 2013/08/27
    【統計学】「データサイエンティストを目指す人なら絶対に読むべき1冊」という事なので、早速、ネット注文した。 #統計学 #TokyoR →
  • 単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ

    一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。 なので、普段はDB上でSQL(というかHiveなど)でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。 ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり

    単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ
    kukita
    kukita 2013/08/07
    【統計学】単純な四則演算での集計結果とデータサイエンスを駆使した分析結果とで食い違ってしまうケースがあるという話。自分用メモφ(..) →
  • 1