[B! データサイエンス] thondaのブックマーク

thonda id:thonda

データサイエンスに関するthondaのブックマーク (16)

「時系列分析」にはグーグルやフェイスブックが考案した最新手法がお薦め
ビジネスでデータサイエンスを活用するシーンとして、過去データを使って将来を予測するタイプの問題がある。商品販売数や店舗売上高など、折れ線グラフを使って表現するようなデータ（時系列データ）に基づいた時系列分析だ。過去の販売データに基づいて翌月の発注量を決めたり、3年後など中長期の計画を策定したりするのに使う。今回は、この時系列分析に活用しやすい3つのアルゴリズムを見ていこう。 Prophet
thonda 2022/10/09
統計

機械学習

データサイエンス
リンク
データサイエンティストは何を勉強すべきか：「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ
(Image by Wokandapix from Pixabay) 個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月で人生逆転」ムーブメントと折からのDXブームに煽られる形で沸き起こった第三次ブームを経て、何だかんだで社会に定着してきた感があります。で、このブログを始めた頃からの連綿と続くテーマになっていますが、いつの時代も話題になるのが「データサイエンティスト（になるに）は何を勉強すべきか」ということ。7年前から恒例にしてきた「スキル要件」記事では、基本的には「どれも必要な知識（学識）」であるという前提で分野・領域・項目を挙げてきました。少なくとも、最初の3回ぐらいはそういう認識でスキル要件記事を書いていた気がします。ところ
thonda 2022/08/01
データサイエンス

統計

ai
リンク
数学カフェ確率・統計・機械学習回「速習確率・統計」
The document describes various probability distributions that can arise from combining Bernoulli random variables. It shows how a binomial distribution emerges from summing Bernoulli random variables, and how Poisson, normal, chi-squared, exponential, gamma, and inverse gamma distributions can approximate the binomial as the number of Bernoulli trials increases. Code examples in R are provided to
thonda 2022/03/13
statistics

data science

統計

データサイエンス
リンク
数理・データサイエンス・AI教育強化拠点コンソーシアム
News 数理・データサイエンス・AI 教育強化拠点コンソーシアムでは,会員校を公募しています. 詳細ページ連携校として国立大学もご参加いただけるようになりました。 2023.9.8 名古屋大学数理・データ科学教育研究センター長　武田一哉教授のインタビュー記事を掲載しました． 2023.6.3 コンソーシアムのニュースレターvol. 18 を掲載しました． 2023.5.9 東北大学データ駆動科学・AI 教育研究センター長早川美徳教授のインタビュー記事を掲載しました． 2023.1.31 コンソーシアムのニュースレターvol. 17 を掲載しました． 2023.1.25 特定分野会議（理工系）ページを開設しました。成果物として、応用基礎レベルモデルシラバス（理工系）等を掲載しています。 2022.12.16 神戸大学数理・データサイエンスセンター長小澤誠一教授の
thonda 2021/01/09
統計

データサイエンス

data science
リンク
データサイエンス100本ノックを、Google ColabとAzure Notebooksで気軽に行いたい！ - Qiita
データサイエンス100本ノックを、Google ColabとAzure Notebooksで気軽に行いたい！PythonAzureデータサイエンス100本ノックGoogle Colaboratory はじめに 2020年6月15日に、データサイエンティスト協会より発表されました「データサイエンス100本ノック（構造化データ加工編）」の素晴らしさに感動した私は早速ドリルを解き、めくるめくデータサイエンスの大冒険をエンジョイしていた。しかし、ふと気づくとOriginalのデータサイエンス100本ノック（構造化データ加工編）はDocker形式で提供されており、実践的な演習が可能である一方でお手軽感はかった。同じ思いの人も数多く存在すると考え、より気軽に100本ノックするためにGoogle ColabとAzure Notebookで実行可能な演習スクリプトと解答編スクリプトを作成した。なお、作成者
thonda 2020/06/22
data science

データサイエンス
リンク
データサイエンス初学者のための実践的な学習環境「データサイエンス100本ノック（構造化データ加工編）」をGitHubに無料公開 | 一般社団法人データサイエンティスト協会
一般社団法人データサイエンティスト協会（所在地：東京都港区、代表理事：草野隆史、以下データサイエンティスト協会）は、構造化データの加工について実践的に学ぶことができる無料の学習環境「データサイエンス100本ノック（構造化データ加工編）」をGitHubに公開しました。「データサイエンス100本ノック（構造化データ加工編）」は、データサイエンス初学者を対象に、データの加工・集計、統計学や機械学習を駆使したモデリングの前処理等を学べるよう、データと実行環境構築スクリプト、演習問題をワンセットにしています。近年、データ活用の重要性についての認知が広がる中で、書籍やWebサイトなど、データ分析のスキル向上に役立つ情報源も多く提供されています。一方で、実践するための「データ」や「プログラミング実行環境」を持ち合わせていないことも多く、「実践力」を身につける機会が限られていました。特に、「構造化デ
thonda 2020/06/16
データサイエンス

data science
リンク
データサイエンティスト＆機械学習（人工知能）エンジニアのスキル要件と、過熱する人工知能ブームが生み出す狂騒曲と（2018年2月版：追記あり） - 渋谷駅前で働くデータサイエンティストのブログ
(Image by Pixaby) この記事は去年はてブ1100以上ついてしまった与太記事の続編です。その時はタイトルを読んで字の如く「データサイエンティスト」と「機械学習エンジニア」の満たすべきスキル要件（の2017年版）について考察したものでした。で、まだ1年しか経ってないのに何でまた引き合いに出したのかというと、最近のメディア報道やニュースリリースの類などを見ていると「データサイエンティストにディープラーニングをやらせる」とか「高度な統計分析のできるエンジニアが必要」みたいなどう見ても色々混同している感のある内容が目に付くので、改めてちょっと自己流に交通整理してみようかなと思ったのでした。特に、空前の人工知能ブームで「人工知能」の語が人口に膾炙すると同時に2014年頃にブームが終わったはずの「データサイエンティスト」の語が何故か復権してしまい、そこら中のメディアでかつて空回りした
thonda 2018/02/08
データサイエンス

ai

人工知能
リンク
Kaggle: The Home of Data Science
Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.
thonda 2015/11/10
機械学習

machine learning

データサイエンス
リンク
データサイエンティストは「アルゴリズム実装系」と「アドホック分析系」とに分けた方が良いかも - 渋谷駅前で働くデータサイエンティストのブログ
最近色々なデータ分析の現場の方々と意見交換したり一緒に飲んだりするようになり、ますます現場ごとの仕事のやり方の違いや雰囲気の違い、はたまた価値観の違いといったことについてそこそこ深く知るようになってきました。おかげさまで、今の僕の立ち位置は「データサイエンティストのエバンジェリスト」みたいな感じになってきておりまして*1、むしろもっと本業*2を頑張らねばと焦っているところです（笑）。ということでそんな中で思うようになってきたことを今回はちろっと。最近何となく感じてる「データサイエンティスト」の境界線について実は「データサイエンティスト」そのものと他の職種との境界線も変わってきたのかなという気がしてる一方で、「データサイエンティスト」の「中」にも内部区分としての境界線が引けそうだなぁという気もしてます、という。データサイエンティストの新・3要素まず、5月の講演会でお話した「データサ
thonda 2015/09/29
「アルゴリズム実装系」「アドホック分析系」のデータサイエンティストと定義

データサイエンス
リンク
時事ドットコム：Cloudera、データサイエンティストのHadoop活用をより促進する新たなイニシアチブを発表！
Cloudera、データサイエンティストのHadoop活用をより促進する新たなイニシアチブを発表！ Cloudera、データサイエンティストのHadoop活用をより促進する新たなイニシアチブを発表！［クラウデラ］〜Python用の新しいプロジェクトIbis、およびWrangle Conferenceが、データサイエンスとビジネスインテリジェンスのギャップを埋める〜米国カルフォルニア州パロアルト - 2015年7月20日発：　Apache Hadoop(TM) をベースとした企業向けデータ分析マネジメント分野のリーダーである Cloudera（本社：東京都中央区　カントリー・マネージャー：田村研三郎、米国本社：カリフォルニア州パロアルト、CEO：Tom Reilly）は本日、データサイエンティストのための新たなイニシアチブを発表しました。データ量が飛躍的に拡大し続ける中、データサ
thonda 2015/08/11
python

データサイエンス
リンク
戦略的データサイエンス入門を読んだ - futoase
戦略的データサイエンス入門を読んだ戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック作者: Foster Provost,Tom Fawcett,竹田正和(監訳),古畠敦,瀬戸山雅人,大木嘉人,藤野賢祐,宗定洋平,西谷雅史,砂子一徳,市川正和,佐藤正士出版社/メーカー: オライリージャパン発売日: 2014/07/19メディア: 単行本（ソフトカバー）この商品を含むブログ (5件) を見るなぜ読もうと思ったか ...インフラとして今の会社で働いてるけど、メトリクス分析だのなんだの知って入るけどよくわからん単語もあったりで、まずなんだっけ？ってなることが幾つか出てきてしまっててデータサイエンティスト担当の人に対して申し訳ないな〜と考えたりしてしまった。そん時よさ気な、体系的に分かりそうな本は無いかなと思って探したらオライリーから邦訳された本が合ったので、会社
thonda 2015/07/13
*あとで読む

データサイエンス
リンク
データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
追記（2017年7月）こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、みどりぼん程度の統計学の知識はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書けるというのが全員の最大公約数＝下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト（）募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。統計学の知識は「みどりぼん以上」データ解析のための統計モデリング入門――一般化線形モデル・階層
thonda 2015/03/14
統計学

機械学習

statistics

business

データサイエンス
リンク
Webデータ分析＆データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。主に自分向けのまとめという意味合いが強いんですが（笑）、僕が実際に2013年6月現在webデータ分析＆データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。追記回帰分析（特に線形重回帰分析）独立性の検定（カイ二乗検定・フィッシャーの正確確率検定）主成分分析(PCA) / 因子分析クラスタリング決定木 / 回帰木サポートベクターマシン(SVM) ロジスティック回帰ランダムフォレストアソシエーション分析（バスケット分析・相関ルール抽出）計量時系列分析おわりにおまけ1：「素性ベクトル＋分類ラベル」なるデータ前処理おまけ2：グラフ理論*10 {igraph}パッケージでグラ
thonda 2013/06/11
統計

statistics

機械学習

machine learning

データサイエンス
リンク
データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
追記2 2015年末の時点での最新リストはこちらです。追記この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版：データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働くデータサイエンティストのブログ 2013年秋版：データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「＊」を打ってあります*1*2*3 統計学統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ
thonda 2013/05/08
*本

datamining

データサイエンス
リンク
究極のデータサイエンティストVS至高のデータサイエンティスト - Analyze IT.
ネットで面白いコピペを発見したので貼り付けておきますね。山岡「こちらが我々の考える究極のデータサイエンティストです。」京極「なんやて、経済学部出身やないか！ITに統計学、業務、この中で先の二つの技術的素養が必要なデータサイエンティストには理系出身者が定石やで山岡はん。」山岡「確かに、数学のスキルが要求されるデータサイエンティストには普通の文系出身者は厳しい。しかし、彼の学部時代の専攻は計量経済学。実務では高度なアルゴリズムやビックデータの解析基盤の構築のスキルなんか本当は必要ない、経済学の手法が求められているんだ。」京極「なんやてっ！」山岡「ビッグデータといっても、小売りの場合大きくて１千万件程度、普通のRDBMSで処理可能だし、非構造化データなんて必要ない。アルゴリズムもSPSSやRなんかのツールに入力して結果を解釈できれば十分なんだ。一方で、政府の統計を駆使して地域の需要を推
thonda 2013/03/15
statistics

datamining

データサイエンス
リンク
データサイエンティストとは？そのスキル/ナレッジレベル定義の必要性
2012年12月6日（木）に開催されEMCジャパン主催「第2回データサイエンティストワークショップ」での弊社社員の講演資料です。
thonda 2013/02/28
データサイエンス

仕事
リンク
1