[B! data science] mharaokaのブックマーク

mharaoka id:mharaoka

data scienceに関するmharaokaのブックマーク (23)

（追記5件あり）統計モデリング基礎論再び：データの生成過程から見てGLMが最適な場合にあえて線形回帰を当てはめてみる - 渋谷駅前で働くデータサイエンティストのブログ
この記事は、遥か昔のこちらの記事の続きのようなものです。また何度も何度も恐縮ですが、今回の記事内容も付け焼き刃で書いているので色々間違っている可能性があります。お気付きの方は是非ご指摘くださいm(_ _)m 各方面のエコノメトリシャンの方々と上記記事を書いた際に議論*1したことがあるのですが、その時は基本的に統計モデリングを行う際は以下のような判別表に従ってモデルを使い分けるべきだという話になったのでした。確率分布特徴ポアソン分布データが正の離散値、平均値30ぐらいまで、標本平均＝標本分散負の二項分布データが正の離散値、平均値30ぐらいまで、標本平均＜標本分散二項分布データが離散値、ゼロ以上でしかも有限 (0, 1, 2, ... N) 正規分布データが連続値もしくは離散値でも平均値が十分大*2 (-∞～∞) 対数正規分布同上、ただし正の値、範囲 (0～∞) ガンマ分布
mharaoka 2017/12/19
data science

statistics
リンク
R, Python, SAS, SPSSをヨーロッパのデータサイエンティストの視点で比べてみた - Qiita
先日、第３の波ーAI、機械学習、データサイエンスの民主化という記事の中でも話したように、今では世界中のどこでもデータサイエンスの世界ではRもしくはPythonといったオープンソースのプログラミング言語やツールが広く使われるようになりました。実際私たちも特にシリコンバレーの様々なタイプのお客様と接することが多々ありますが、最近ではいよいよSASもしくはSPSSといった古くからあるエンタープライズ向けのデータ分析・統計ツールを会社で使用するためにかかる莫大なコストを見直すという圧力が日々大きくなっているようで、新規のプロジェクト、もしくは新規に雇用された人たちがそういった経費の承認を得るのは基本的にありえないか、あってもかなり大変らしいです。で、結局、どうせSASもしくはSPSSを使ってやろうとしてることは何でもRもしくはPythonを使ってできてしまうし、さらにもっと多くの最先端のアルゴリ
mharaoka 2017/06/19
データサイエンス

python

R

data science

software
リンク
【Python】データサイエンティストのためのPython開発記事紹介 - 歩いたら休め
後輩が数値計算を使う、簡単なバッチ処理をPythonで書き始めました。一応私もPythonの知識ならそれなりにあるのでいろいろ教えられることは（まだ）あります。そのための予行練習としていろいろまとめておきます。正直、自分よりもっと数値計算やプログラミングに関する知識と経験豊富なエンジニアがいれば、彼ももっといろいろなことができるようになっているんじゃないかと思ってしまい、申し訳なさを感じています。 Pythonの言語のイディオムを覚えようまずは、道具であるプログラミング言語を使いこなせるようになりましょう。おすすめは『Pythonチュートリアル第3版』です。 Pythonチュートリアル第3版作者: Guido van Rossum,鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2016/03/24メディア: 単行本（ソフトカバー）この商品を含むブログを見る WEB
mharaoka 2016/11/16
あとで読む

python

data science
リンク
データサイエンティスト（本物）は決して幻の職業などではない - 渋谷駅前で働くデータサイエンティストのブログ
かつて拙著出版の際に大変お世話になった技術評論社（技評）さんから、『データサイエンティスト養成読本』改定2版のPRとして以下の記事がリリースされていました。この記事がもう何と言いますか、「読めばそのままデータサイエンティスト（本物）もしくはグローバルにおけるData Scientistのスキル要件になっている」ほどの素晴らしい記事なので、ぜひ皆様にはご一読をお薦めいたします。ちなみにここであえて「本物」と銘打ったのは、少し前にもどこかで論じられていた記憶があるのですが、要は「なんちゃってデータサイエンティスト」は含まないということです。僕の知る限り、日本国内でデータサイエンティストと言うと「データサイエンティスト（カナ）」と方々から侮られるのが常なのですが、それはそもそも後述するように数年前に大量に発生したデータサイエンティスト（本物）でも何でもない専門的スキルに乏しい人々のことが世間で
mharaoka 2016/09/21
あとで読む

data science

statistics

programming
リンク
⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh
RStudioのチーフサイエンティスト、Hadley Wickham（ハドリー）が２月に行った講演のビデオがYouTubeに上がっていたので観た。 "Making Data Analysis Easier"というタイトルでの発表(スライドでは"Managing many models"になっているけど)で、ハドリー自身が考えている、データサイエンスに必要な可視化やモデリングを効率的に行うための手法について、彼の開発してきたパッケージを中心に説明している。 www.youtube.com 分かりやすく、具体例を交えた内容なので、是非YouTubeの動画を観てもらうのが良いと思うが、自分の頭を整理するためにもここでまとめておく。なお、発表スライドはクリエイティブ・コモンズライセンス3.0のもと、表示・非営利のラインセンスで再利用可能となっている。 Hadley Wickham (Chief S
mharaoka 2016/03/27
R

data science

あとで読む

データ分析
リンク
Graphical Data Analysis with R
Reviews Statistical Papers March 2017 (Jasmin Wachter) This clear structure allows for fast orientation and makes the book exceptionally friendly for users. International Statistical Review August 2016 (Reijo Sund) The examples concretely show how the simple tools really do the magic, if those are applied in a suitable manner. JASA August 2016 (Dianne Cook, Jill Wright, and Julia Polak) This book
mharaoka 2016/02/28
R

data science

graph

あとで読む
リンク
第51回データマイニング+WEB ＠東京( #TokyoWebmining 51st ) ー機械学習・分析基盤祭りーを開催しました - hamadakoichi blog
2016/2/20 "第51回データマイニング+WEB ＠東京( #TokyoWebmining 51st ) ー機械学習・分析基盤祭りー" を開催しました。第51回データマイニング+WEB ＠東京( #TokyoWebmining 51st ) ー機械学習・分析基盤祭りーEventbrite Google グループ会場提供して下さったSmartNewsさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。参加者ID・バックグラウンド一覧参加者セキココ：第51回データマイニング+WEB ＠東京セキココ (作成してくれた [Twitter:@komiya_atsushi] さんに感謝）以下、全講師資料、関連資料、ツイートまとめです。 AGENDA： ■Opening Talk： O1.「データマイ
mharaoka 2016/02/21
データマイニング

機械学習

data science

あとで読む
リンク
まがい物のデータサイエンティストは滅びゆく：USのトップ5データサイエンティストたちが語る2016年の展望 - 渋谷駅前で働くデータサイエンティストのブログ
(Photo via VisualHunt.com) 僕も会員になってるData Science Central*1に、こんな面白い論説が載っているのを見つけました。 Data science and statistical modeling will be further automated, with better black-box products Frontiers between data science, operations research, machine learning, artificial intelligence and statistics, will disappear AI will become more prominent, and referred to as deep learning in our community We will see m
mharaoka 2016/01/01
data science

あとで読む
リンク
転送中
リダイレクトします以前ここにあったブログは、現在 https://www.kyougokumakoto.com/2015/11/glmm.html にあります。リダイレクトしますか。
mharaoka 2015/11/11
GLMM

statistics

data science

あとで読む
リンク
PyCon Montreal 2015 tutorials - Hands-on way to learn Data Science in Python
Introduction PyCon(s) carry a benevolent motive of helping the Python community worldwide by providing extensive knowledge resources. I started following PyCon conferences from 2013. My first learning experience from PyCon tutorials & workshops inspired me to follow it back in the year 2014 and this craze continued in 2015 as well. You can check out the training recommendation for tutorials of Pyc
mharaoka 2015/05/06
あとで読む

python

data science
リンク
データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
追記（2017年7月）こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、みどりぼん程度の統計学の知識はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書けるというのが全員の最大公約数＝下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト（）募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。統計学の知識は「みどりぼん以上」データ解析のための統計モデリング入門――一般化線形モデル・階層
mharaoka 2015/03/13
あとで読む

データ分析

data science
リンク
Overview of Python Visualization Tools - Practical Business Python
Taking care of business, one python script at a time Introduction In the python world, there are multiple options for visualizing your data. Because of this variety, it can be really challenging to figure out which one to use when. This article contains a sample of some of the more popular ones and illustrates how to use them to create a simple bar chart. I will create examples of plotting data wi
mharaoka 2015/02/06
python

data science

tips
リンク
当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ
どうも。 1月に入社したばかりの、データ分析担当のn_maoです。と言いながら、最近はHTMLとjsばかりいじっております。それはそれで楽しいです。さて今回はデータ分析のざっくりとした仕事内容と、その分析にかかる手間を省くツールをご紹介します。データ分析の仕事まずは私の行っているデータ分析という仕事の内容をご紹介します。私の主な仕事は大きく分けて４つです。売上げ、会員登録数などの簡単な集計&自動レポーティングデータベースからの知識発見（いわゆるデータ分析）分析結果をもとにした企画立案実施された企画の効果検証あくまで私個人の仕事内容であり、データ分析者全員に当てはまるわけではありません。アルゴリズムの研究開発の方や、インフラ寄りの方もいらっしゃるでしょう。ですが、同じ職種の方で業務範囲が被っている方も少なからずいらっしゃると思います。これら４つの業務の中で一番時間
mharaoka 2015/02/06
あとで読む

tips

データ分析

programming

data science
リンク
社会人のためのデータサイエンス入門／総務省統計局データサイエンス・オンライン講座
本講座と併せて学習していただくことで、よりデータサイエンスへの理解が深まりますので、ぜひご受講ください。こちらのページをご参照ください。第１週：統計データを用いた分析事例を知り、統計リテラシーを学ぶ・大人がデータサイエンスを学ぶべき理由・統計データからわかること① ・統計データからわかること② ・統計データからわかること③ ・統計リテラシーの重要性・統計を利用する際の注意点第２週：データ分析に必要な統計学の基礎を学ぶ・データの種類・代表値～平均・中央・最頻値・ヒストグラムと相対度数・四分位・パーセンタイル・箱ひげ図・分散・標準偏差・相関関係・回帰分析・標本分布・信頼区間
mharaoka 2014/12/20
あとで読む

data science

learning
リンク
Breakout detection in the wild
Nowadays, BigData is leveraged in every sphere of business: decision making for new products, gauging user engagement, making recommendations for products, health care, data center efficiency and more. A common form of BigData is time series data. With the progressively decreasing costs of collecting and mining large data sets, it’s become increasingly common that companies – including Twitter – c
mharaoka 2014/11/26
R

Twitter

data science
リンク
データ分析というお仕事のこれまでとこれから(HCMPL2014)
ハッカーズチャンプルー2014でお話してきた内容です。「データサイエンティスト（カナ）はオワコン」 http://hackers-champloo.org/program.htmlRead less
mharaoka 2014/07/13
あとで読む

statistics

data science
リンク
第32回データマイニング+WEB＠東京( #TokyoWebmining 32nd ) －マーケティング最適化・最前線祭り－を開催しました - hamadakoichi blog
2014/1/25 "第32回データマイニング+WEB ＠東京　( #TokyoWebmining 32nd) −マーケティング最適化・最前線祭り−"を開催しました。第32回データマイニング+WEB＠東京 ( #TokyoWebmining 32nd) −マーケティング最適化・最前線祭り−: Eventbrite Google グループ会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。参加者ID・バックグラウンド一覧：参加者Twitter List: Twitter List TokyoWebmining 32nd 参加者セキココ：第32回データマイニング+WEB ＠東京セキココ (作成してくれた [T
mharaoka 2014/01/26
data science

statistics
リンク
The Johns Hopkins Data Science Specialization on Coursera · Simply Statistics
mharaoka 2014/01/25
statistics

learning

data science
リンク
データサイエンティストサミット 2013に参加してきた | DevelopersIO
データサイエンティストサミット：プログラム『ビッグデータ』と共に昨今業界を賑わせているフレーズとして『データサイエンティスト』というものがあります。用語の意味や解説などは下記リンクなどを参考頂くとして、世間の見方としては様々ある模様です。AWS等クラウド全盛の昨今、ビッグデータ及びデータサイエンティストと呼ばれる役割や要素がその重要さを増しているのはまず間違いないと言って良いでしょう。データサイエンス - Wikipedia 一般社団法人データサイエンティスト協会脚光浴びるデータ・サイエンティストってどんな人？ : 日経BizGate 「IT エンジニアのためのデータサイエンティスト養成講座」最新記事一覧 - ITmedia Keywords 「あいつ・・・なにやってるの？」データサイエンティストを殺す4つの環境 - dataminer.me 今世紀最も熱い職業「データサイエンティス
mharaoka 2013/12/08
あとで読む

data science
リンク
データ・サイエンスのプログラミング言語はRからPythonに置き換わる | readwrite.jp
これまでデータ・サイエンティストの選ぶプログラミング言語はRだったのだが、急激にPythonに置き換わろうとしている。このシフトの理由はいくつかあるようだが、第一にはPython自体が汎用的で比較的学びやすい言語であるのに対し、Rが習得するにあたってやや複雑であることがあげられるだろう。データにますます依存しつつある現代社会とデータに飢えたサイエンティストにとっては「簡単さ」こそが鍵となるのだ。 Rは実際にはプログラミング言語ではないRを覚えることに苦労する人が多い理由として考えられるのは、Rが実際にはプログラミング言語ではないからかもしれない。R専門家のジョン・クックいわく、Rとは「統計のためのインタラクティブな環境」であり、厳密にはプログラミング言語ではないのだ。彼はさらに「Rをプログラミング言語だと考るのではなく、Rがプログラミング言語を内包しているのだと考えた方が良いと分かった
mharaoka 2013/11/30
python

R

data science
リンク
1 2 次のページ