ビッグデータの時代と言われている。近年、データの計測およびストレージ技術の発達とともに、大規模データから適切に情報抽出し、それを意思決定に活用することが必須のリテラシーとなっている。いっぽうデータの形式と対応する解析法の変化は著しく、新しい方法を正しく利用するために、普遍的な統計科学の原理を理解することが重要である。基礎となる統計数理とともに、具体的な統計解析手法とその運用を、統計ソフトウエアによるデータ解析実習を通じて習得する。 統計データ解析Ⅱでは、統計ソフトウエアRの説明の後、高次元大規模データに潜む相関構造を発見し計量する多変量解析、および時系列データの基本的な解析法を学ぶ。統計手法の運用とデータハンドリングを実習することに加え、微分積分学、線型代数学等の前期課程数学と連携し、数理科学的側面を意識しながら、実験を介して統計手法の合理性と体系を感得する。
ぼくは医学統計学と疫学が専門です。これらのデータ解析には主にRを使います。 かれこれ15年ほどRを使ってきました。当時、Rに関するまとまった情報は『The R Tips』しかありませんでした。時は流れ、今はたくさんR本やサイトがあります。しかし、たくさんありすぎて何を見れば良いのか迷いますよね? そこで、ぼくの経験に基づき、おすすめする有益なR本・サイトをまとめてみました! RとRStudioの環境構築 矢内先生の「RとRStudioのインストール方法の解説」サイト 基礎(網羅的) Rではじめるデータサイエンス RユーザーのためのRStudio実践入門 The R Tips Rクックブック 宋先生の「Rプログラミング入門の入門」サイト データハンドリング特化 宋先生の「dplyr入門 (dplyr 1.0.0対応)」Webページ 宋先生の「tidyr入門」Webページ 可視化特化 Rグラフ
SAS リンク集 ほぼ自分用 プロシジャガイド https://go.documentation.sas.com/?cdcId=pgmsascdc&cdcVersion=9.4_3.4&docsetId=allprodsproc&docsetTarget=procedures.htm&locale=ja SAS関数 https://support.sas.com/documentation/cdl_alternate/ja/lefunctionsref/67960/HTML/default/n1mj2bizbsd7ktn1sf9lz111kku3.htm Base SASのQA https://www.sas.com/offices/asiapacific/japan/service/technical/faq/list/base_index.html グラフ作成例 https://sup
はじめに 修正履歴 2020/12/30: 公開 誤字・脱字は随時修正しております。 以下の内容は現在執筆中の内容の一部となります。 Song Jaehyun・矢内勇生『私たちのR: ベストプラクティスの探求』(E-book) 「可視化 [応用]」章を抜粋したものであり、今後のアップデートは『私たちのRで行います。 ここをお読みになる前に、まず、dplyr入門 (新版)とggplot2入門 [理論編]、ggplot2入門 [基礎編]を一読して下さい。 したがって、いきなりオブジェクト、関数、引数といった馴染みのない概念が出てきます。これらの概念に馴染みのない方は、予め「Rプログラミング入門の入門」の前半をご一読ください。 応用編の内容 理論編と基礎編では{ggplot2}の概念と5つの代表的なグラフ(棒、ヒストグラム、箱ひげ図、散布図、折れ線)の作り方について説明しました。本章では軸の調整
【JS/ Python両方OK!】「データ可視化」が歴史から実装まで体系的に学べるStanford講座の独習ノートJavaScriptd3.jsデータ分析データサイエンスcolaboratory CS 448B Visualization (2020 Winter)は、Maneesh Agrawala氏による、Stanford大で行われた、データの可視化に関する体系的な講義です。 スタンフォード大の"CS 448B Visualization (2020 Winter)" がすごい。 データ可視化の体系的講義。どう図表に変換するかの理論、探索的データ分析、ネットワーク分析等の実践と盛り沢山。 スライドに加え、Observable(JavaScript), Colab(Python)どちらでも例を試せる。https://t.co/lGyPElrihg pic.twitter.com/mWZn
データサイエンティストを生業にする手段と実態について述べる。 途中、具体例・境界値の例として私個人の話もするが、なるべく一般性のある話をする。 この記事で言いたいことは具体的には4つだ。 プログラミングスクールをディスるなら代わりの入門方法を提供しようよ。 もう「未経験文系から3ヶ月でデータサイエンティストで一発逆転物語」を止めろ。*1 おじさんは人生逆転したいなら真面目にやれ。 若者はワンチャンじゃなくて、ちゃんと化け物になれよ。 この記事についてはパブリック・ドメインとして転載・改変・リンク記載を自由にしてよいです。 (続き書いた) a. 入門は辛いが… b. 思考停止でプログラミングスクールに通うな。 なろう系・始めてみよう系資料一覧 (最速・最短ルート用) まずは動かしてみよう。強くてニューゲームが体験出来るぞ! 入門以前の本 一般向け業界本 (AI業界と展望がわかる本) 技術者入
Help us understand the problem. What is going on with this article? はじめに Rのデータサイエンス書籍相関図の超個人的版を作りました。R言語のおかげで、今はお仕事ができているようなものなので、1人でも多くのRユーザーが増えてRコミュニティがもっと活発になればと思い、作成しました。 私の技術や知識はこの著者の方々のおかげで成り立っているので、良書を作るために、自分の時間を削って執筆活動をされている方には頭があがりません。感謝しかありません。 そして、Rを使い始める方のお助けになればと思います。 【注意事項】 自分が読んだ書籍の中から「R」が中心の書籍を選びました。無論、良書は他にも多数あると思われます。 理論系、ベイズ統計、Python系は除いています。 言語処理、時系列、異常値検知、画像処理、音声処理はあまり知らないので除
By Yutani Hiroaki | 2018.08.15 2021.01.08Software Engineer at Data Analysis team, Data Labs. ドーモ、Data LabsのYutani (湯谷)です。 私の所属しているData Labsは、LINEメッセンジャーを含めた全サービスのデータの分析・研究・応用のための専門的な開発組織です。 サービスの事業領域を超えて、各サービスのログや利用動向などのデータを横断的に処理し、より精密なデータ分析と情報フィルタリングを提供し、全サービスのデータの効率的な活用を目標に日々精進しています。 2018年7月10日〜13日に開催されたUseR!2018に参加しポスター発表を行いました。その様子の一部をブログで紹介します。 UseR!とは UseR!は、世界中からRユーザが集まるR界最大のカンファレンスです。毎年1回
「Jupyter notebook」というツールは、Pythonのコードを部分ごとに実行できてその場で結果を確認できるため、試行錯誤を積み重ねる必要があるデータ分析や機械学習によく用いられてきました。「Colaboratory」はそのJupyter notebookを元に「ブラウザで実行」「ファイルはGoogleドライブに保存」「共同編集」などの機能を加えて作成されたツールです。 Google Colab https://colab.research.google.com/ Google Colaboratoryのサイトにアクセスすると「最近のノートブック」という画面に。ひとまず右下から「ノートブックを新規作成」してみます。 実行するPythonのバージョンを選択できます。今回は「PYTHON 3」を選択。 ノートブックには「セル」が存在し、左側の実行ボタンを押すとセル内のコードを実行して
主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。 この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルは ここ からダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま
はじめに 本稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxやMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPythonや
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く