ビジネスでデータサイエンスを活用するシーンとして、過去データを使って将来を予測するタイプの問題がある。商品販売数や店舗売上高など、折れ線グラフを使って表現するようなデータ(時系列データ)に基づいた時系列分析だ。過去の販売データに基づいて翌月の発注量を決めたり、3年後など中長期の計画を策定したりするのに使う。今回は、この時系列分析に活用しやすい3つのアルゴリズムを見ていこう。 Prophet
(Image by Wokandapix from Pixabay) 個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月で人生逆転」ムーブメントと折からのDXブームに煽られる形で沸き起こった第三次ブームを経て、何だかんだで社会に定着してきた感があります。 で、このブログを始めた頃からの連綿と続くテーマになっていますが、いつの時代も話題になるのが「データサイエンティスト(になるに)は何を勉強すべきか」ということ。7年前から恒例にしてきた「スキル要件」記事では、基本的には「どれも必要な知識(学識)」であるという前提で分野・領域・項目を挙げてきました。少なくとも、最初の3回ぐらいはそういう認識でスキル要件記事を書いていた気がします。 ところ
The document describes various probability distributions that can arise from combining Bernoulli random variables. It shows how a binomial distribution emerges from summing Bernoulli random variables, and how Poisson, normal, chi-squared, exponential, gamma, and inverse gamma distributions can approximate the binomial as the number of Bernoulli trials increases. Code examples in R are provided to
News 数理・データサイエンス・AI教育強化拠点コンソーシアムでは,会員校を公募しています. 詳細ページ 連携校として国立大学もご参加いただけるようになりました。 2023.9.8 名古屋大学 数理・データ科学教育研究センター長 武田 一哉 教授 のインタビュー記事を掲載しました. 2023.6.3 コンソーシアムの ニュースレターvol. 18 を掲載しました. 2023.5.9 東北大学データ駆動科学・AI教育研究センター長 早川 美徳 教授 のインタビュー記事を掲載しました. 2023.1.31 コンソーシアムの ニュースレターvol. 17 を掲載しました. 2023.1.25 特定分野会議(理工系)ページを開設しました。成果物として、応用基礎レベルモデルシラバス(理工系)等を掲載しています。 2022.12.16 神戸大学 数理・データサイエンスセンター長 小澤 誠一 教授 の
データサイエンス100本ノックを、Google ColabとAzure Notebooksで気軽に行いたい!PythonAzureデータサイエンス100本ノックGoogleColaboratory はじめに 2020年6月15日に、データサイエンティスト協会より発表されました「データサイエンス100本ノック(構造化データ加工編)」の素晴らしさに感動した私は早速ドリルを解き、めくるめくデータサイエンスの大冒険をエンジョイしていた。 しかし、ふと気づくとOriginalのデータサイエンス100本ノック(構造化データ加工編)はDocker形式で提供されており、実践的な演習が可能である一方でお手軽感はかった。同じ思いの人も数多く存在すると考え、より気軽に100本ノックするためにGoogle ColabとAzure Notebookで実行可能な演習スクリプトと解答編スクリプトを作成した。なお、作成者
一般社団法人データサイエンティスト協会(所在地:東京都港区、代表理事:草野 隆史、以下データサイエンティスト協会)は、構造化データの加工について実践的に学ぶことができる無料の学習環境「データサイエンス100本ノック(構造化データ加工編)」をGitHubに公開しました。 「データサイエンス100本ノック(構造化データ加工編)」は、データサイエンス初学者を対象に、データの加工・集計、統計学や機械学習を駆使したモデリングの前処理等を学べるよう、データと実行環境構築スクリプト、演習問題をワンセットにしています。 近年、データ活用の重要性についての認知が広がる中で、書籍やWebサイトなど、データ分析のスキル向上に役立つ情報源も多く提供されています。一方で、実践するための「データ」や「プログラミング実行環境」を持ち合わせていないことも多く、「実践力」を身につける機会が限られていました。特に、「構造化デ
(Image by Pixaby) この記事は去年はてブ1100以上ついてしまった与太記事の続編です。その時はタイトルを読んで字の如く「データサイエンティスト」と「機械学習エンジニア」の満たすべきスキル要件(の2017年版)について考察したものでした。 で、まだ1年しか経ってないのに何でまた引き合いに出したのかというと、最近のメディア報道やニュースリリースの類などを見ていると「データサイエンティストにディープラーニングをやらせる」とか「高度な統計分析のできるエンジニアが必要」みたいなどう見ても色々混同している感のある内容が目に付くので、改めてちょっと自己流に交通整理してみようかなと思ったのでした。 特に、空前の人工知能ブームで「人工知能」の語が人口に膾炙すると同時に2014年頃にブームが終わったはずの「データサイエンティスト」の語が何故か復権してしまい、そこら中のメディアでかつて空回りした
最近色々なデータ分析の現場の方々と意見交換したり一緒に飲んだりするようになり、ますます現場ごとの仕事のやり方の違いや雰囲気の違い、はたまた価値観の違いといったことについてそこそこ深く知るようになってきました。 おかげさまで、今の僕の立ち位置は「データサイエンティストのエバンジェリスト」みたいな感じになってきておりまして*1、むしろもっと本業*2を頑張らねばと焦っているところです(笑)。ということでそんな中で思うようになってきたことを今回はちろっと。 最近何となく感じてる「データサイエンティスト」の境界線について 実は「データサイエンティスト」そのものと他の職種との境界線も変わってきたのかなという気がしてる一方で、「データサイエンティスト」の「中」にも内部区分としての境界線が引けそうだなぁという気もしてます、という。 データサイエンティストの新・3要素 まず、5月の講演会でお話した「データサ
Cloudera、データサイエンティストのHadoop活用を より促進する新たなイニシアチブを発表! Cloudera、データサイエンティストのHadoop活用を より促進する新たなイニシアチブを発表! [クラウデラ] 〜Python用の新しいプロジェクトIbis、およびWrangle Conferenceが、データサイエンスとビジネスインテリジェンスのギャップを埋める〜 米国カルフォルニア州パロアルト - 2015年7月20日発: Apache Hadoop(TM) をベースとした企業向けデータ分析マネジメント分野のリーダーである Cloudera(本社:東京都中央区 カントリー・マネージャー:田村研三郎、米国本社:カリフォルニア州パロアルト、CEO:Tom Reilly)は本日、データサイエンティストのための新たなイニシアチブを発表しました。データ量が飛躍的に拡大し続ける中、データサ
戦略的データサイエンス入門を読んだ 戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック 作者: Foster Provost,Tom Fawcett,竹田正和(監訳),古畠敦,瀬戸山雅人,大木嘉人,藤野賢祐,宗定洋平,西谷雅史,砂子一徳,市川正和,佐藤正士出版社/メーカー: オライリージャパン発売日: 2014/07/19メディア: 単行本(ソフトカバー)この商品を含むブログ (5件) を見る なぜ読もうと思ったか ...インフラとして今の会社で働いてるけど、 メトリクス分析だのなんだの知って入るけどよくわからん単語もあったりで、 まずなんだっけ?ってなることが幾つか出てきてしまってて データサイエンティスト担当の人に対して申し訳ないな〜と考えたりしてしまった。 そん時よさ気な、体系的に分かりそうな本は無いかなと思って探したら オライリーから邦訳された本が合ったので、会社
追記(2017年7月) こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、 みどりぼん程度の統計学の知識 はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書ける というのが全員の最大公約数=下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト()募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。 統計学の知識は「みどりぼん以上」 データ解析のための統計モデリング入門――一般化線形モデル・階層
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ
追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働くデータサイエンティストのブログ 2013年秋版:データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ 今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「*」を打ってあります*1*2*3 統計学 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ
ネットで面白いコピペを発見したので貼り付けておきますね。 山岡「こちらが我々の考える究極のデータサイエンティストです。」 京極「なんやて、経済学部出身やないか!ITに統計学、業務、この中で先の二つの技術的素養が必要なデータサイエンティストには理系出身者が定石やで山岡はん。」 山岡「確かに、数学のスキルが要求されるデータサイエンティストには普通の文系出身者は厳しい。しかし、彼の学部時代の専攻は計量経済学。実務では高度なアルゴリズムやビックデータの解析基盤の構築のスキルなんか本当は必要ない、経済学の手法が求められているんだ。」 京極「なんやてっ!」 山岡「ビッグデータといっても、小売りの場合大きくて1千万件程度、普通のRDBMSで処理可能だし、非構造化データなんて必要ない。アルゴリズムもSPSSやRなんかのツールに入力して結果を解釈できれば十分なんだ。一方で、政府の統計を駆使して地域の需要を推
2012年12月6日(木)に開催されEMCジャパン主催「第2回データサイエンティストワークショップ」での弊社社員の講演資料です。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く