タグ

ブックマーク / tjo.hatenablog.com (29)

  • 「データサイエンティスト」「ビッグデータ」狂想曲の裏で何が進んでいるのか - 渋谷駅前で働くデータサイエンティストのブログ

    ついに「データサイエンティスト」「ビッグデータ」の語が、お茶の間にやってくる日が来たようです。 数字のカラクリ・データの真実 ~統計学ブームのヒミツ~ - NHKクローズアップ現代 ノイズとシグナルの狭間で - スタッフの部屋 ワールドビジネスサテライト7月10日「データサイエンティスト」特集 - ワールドビジネスサテライトFacebookページ これらの放送の後のTwitterの狂騒ぶりといったら、それはそれはもう凄かったです(笑)。支持派もアンチも入り乱れて「データサイエンティスト」の連呼で、検索するとTLが溢れてしまって*1全く読み切れないという。。。 所詮すぐに消えていくただのバズワード? ところで、支持派でもアンチでもおそらく大多数の人は「データサイエンティスト」「ビッグデータ」という語について、このように捉えているのではないでしょうか? まだ全然広まっていなくて、これから広まる

    「データサイエンティスト」「ビッグデータ」狂想曲の裏で何が進んでいるのか - 渋谷駅前で働くデータサイエンティストのブログ
  • データサイエンティストは精鋭の6000人しか要らないかもしれない - 渋谷駅前で働くデータサイエンティストのブログ

    ちょっと前の話ですが、Vapnikマン氏*1(@sla)の超絶素晴らしいインタビュー記事が出てました。 データサイエンティストが要らなくなる日が来るかもしれない しかも、あの「ネガティブにデータサイエンティストな日記」のid:dscaさんが、Vapnikマン氏のインタビュー記事に触発されて データサイエンティストが要らない日はもう来ている という素晴らしい記事を書かれていて、これはもう釣られるしかないでしょーといった風情です。そんなわけで全力で釣られたついでに煽り記事書いてみました。いつも通りロクな内容ではないので、念のため(笑)。 そもそも25万人もデータサイエンティストって必要なのか? 日経が「今後データサイエンティストは25万人不足する」とか吹かしてくれたおかげで、今やすっかり「25万人」説が広まってしまったわけですが。 結論から言うと、日国内ではそんなに要りません。僕の超絶大ざっ

    データサイエンティストは精鋭の6000人しか要らないかもしれない - 渋谷駅前で働くデータサイエンティストのブログ
  • ネタとして秀逸どころか実際に大いに使える『データサイエンティスト レベル表』(記事紹介) - 渋谷駅前で働くデータサイエンティストのブログ

    はてなIDコールから突然Twitterにリプが飛んできたので、何かと思ったら以下の@shakezo_さんの記事で言及されていたのでした。 データサイエンティスト レベル表 - shakezoの日記 これがですねぇ、もうこれ以上ないくらい大変面白かった!ので是非とも紹介させていただきたく。ポイントとしては面白いだけでなく、実際にデータサイエンティストのレベル分けとしても大いに使えるところだと思ってます。 正直言って、どのレベル設定も非常~~~によく出来てます。僕の理解でかいつまんでまとめてみると、 レベル0:まだデータ分析してない レベル1:Excelなどでデータ分析の真似事を始めたばかり レベル2:RやSPSSで機械学習・統計学・データマイニングっぽいことが出来る レベル3:原理を知る必要が出てきてPRMLに手を出し始める レベル4:PRMLは大体読みこなせて、KDDとかICMLとかの論文

    ネタとして秀逸どころか実際に大いに使える『データサイエンティスト レベル表』(記事紹介) - 渋谷駅前で働くデータサイエンティストのブログ
  • データサイエンティストは「アルゴリズム実装系」と「アドホック分析系」とに分けた方が良いかも - 渋谷駅前で働くデータサイエンティストのブログ

    最近色々なデータ分析の現場の方々と意見交換したり一緒に飲んだりするようになり、ますます現場ごとの仕事のやり方の違いや雰囲気の違い、はたまた価値観の違いといったことについてそこそこ深く知るようになってきました。 おかげさまで、今の僕の立ち位置は「データサイエンティストのエバンジェリスト」みたいな感じになってきておりまして*1、むしろもっと業*2を頑張らねばと焦っているところです(笑)。ということでそんな中で思うようになってきたことを今回はちろっと。 最近何となく感じてる「データサイエンティスト」の境界線について 実は「データサイエンティスト」そのものと他の職種との境界線も変わってきたのかなという気がしてる一方で、「データサイエンティスト」の「中」にも内部区分としての境界線が引けそうだなぁという気もしてます、という。 データサイエンティストの新・3要素 まず、5月の講演会でお話した「データサ

    データサイエンティストは「アルゴリズム実装系」と「アドホック分析系」とに分けた方が良いかも - 渋谷駅前で働くデータサイエンティストのブログ
  • Rで計量時系列分析:AR, MA, ARMA, ARIMAモデル, 予測 - 渋谷駅前で働くデータサイエンティストのブログ

    前回の記事では計量時系列分析とは何ぞや?みたいなところをやりましたので、今回はいろはのイともいえるARIMAまわりから始めていこうと思います。 ということで改めて、使用テキストはいつものこちらです。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行購入: 4人 クリック: 101回この商品を含むブログ (6件) を見る 以下タイトルにのっとってRで各モデルの挙動を見ながらやっていきます。 必要なRパッケージ {forecast}をインストールして展開して下さい。Rそのものの初心者向け説明はここでは全面的に割愛するので、適宜何かしらの初心者向け説明をご参照あれ。 今回のモデルで目指すもの 前回の記事では、要は「自己相関が大事よー」という話を何度もしました。ということは、時系列モデリング

    Rで計量時系列分析:AR, MA, ARMA, ARIMAモデル, 予測 - 渋谷駅前で働くデータサイエンティストのブログ
  • Rで計量時系列分析:はじめに覚えておきたいこと - 渋谷駅前で働くデータサイエンティストのブログ

    機械学習は全然専門ではない僕が知ったかぶりをするのも何なので*1、もっともっと以前からそこそこやっている*2計量時系列分析の話でもしてお茶を濁してみることにします(笑)。 もうしつこ過ぎて自分でも嫌になってきたんですが(笑)、このシリーズでベースにするテキストは以下の2冊。沖テキストとHamiltonテキストです*3。他にも良いテキストはあるんじゃないかと思いますが、ここではこの2冊をベースにしていきます。なお、ほとんど沖テキストからの抜粋なのでお持ちの方はそちらを読んでもらった方が圧倒的に早いです、悪しからず。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行購入: 4人 クリック: 101回この商品を含むブログ (6件) を見る Time Series Analysis 作者

    Rで計量時系列分析:はじめに覚えておきたいこと - 渋谷駅前で働くデータサイエンティストのブログ
  • サイバーエージェントを退職しました - 渋谷駅前で働くデータサイエンティストのブログ

    私事ですが、日をもって株式会社サイバーエージェント退職しました。 正式には6月30日が退職日なのですが、日が最終出社日*1なのでサイバーの同僚の皆さんと(同僚として)お会いするのはこれで最後です。 思えば、アカデミックなキャリアから民間企業キャリアに転じようと決心し、昨年の6月1日にサイバーに入社して以来、当に色々なことがありました。 そもそも実はその正式な入社日以前から、12新卒エンジニアたちに混じってJava研修を受けさせてもらったり、その12新卒の彼らから物凄いカルチャーショックを受けたり(笑)*2、よくよく考えたらアカデミアでは一番の若手だったのにサイバーでは最年長レベルだと気付いて萎えたり*3、正式入社の直後にビッグサプライズがあったり*4、右も左もわからないうちに渋谷ラボ(当時)の室長を任されたり*5、突然外国人が半数以上の技術委員会の委員を引き受けることになったり*6

    サイバーエージェントを退職しました - 渋谷駅前で働くデータサイエンティストのブログ
  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
  • データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

    追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦めリスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六木で働くデータサイエンティストのブログ 2013年秋版:データ分析初心者にお薦めする「基礎を当にゼロから学ぶ」ためのテキスト5冊 - 六木で働くデータサイエンティストのブログ 今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「*」を打ってあります*1*2*3 統計学 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ

    データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ