はじめに~レポートづくりのオートメーション化~ データを扱う仕事をしている人にとって、レポートの作成はあらゆる業務に欠かせない、しかし決して面白くはない作業です。本連載ではレポート作成の手間と苦労に頭を悩ます人々を救うべく、R言語とR Markdownと言うツールを用いたレポート作成のオートメーション化について解説します。 ここでのレポートとは格調高いフォーマルな報告書から日々の業務報告まで、データやログを処理して図・表・数値として要約し、説明文書とともにアウトプットを作成する作業すべてを含みます。例えばデータアナリストならビジネスデータを使った経営戦略に関わるKPIレポート、システム管理者なら日々のアクセスログの統計・集約レポート、研究者なら実験データに対する統計解析結果を示すレポートや論文、などなど。 R Markdownについての技術的な解説は、Rによるデータ解析を現在行っている、こ
データ内容をシンプルにブラウザで確認できるパッケージです。データサイズ、構成、NA値も確認することができるので以外に便利かと思います。エクセルを読み込むパッケージと合わせて利用すると良いかもしれません。 パッケージバージョンは0.8.2。実行コマンドはwindows 11のR version 4.1.2で確認しています。 パッケージのインストール下記コマンドを実行してください。 #パッケージのインストール install.packages("DataExplorer")実行コマンドの紹介詳細はコマンド内を確認ください。 #パッケージの読み込み library("DataExplorer") library("tcltk") ###データ例の作成##### n = 100 TestData <- data.frame(Group = sample(c(paste0("Group", 1:5)
自殺白書に関する報道は東京新聞と産経新聞で見出しの付け方が対照的だった。 東京新聞:若者と高齢者の自殺深刻 政府、16年版白書:社会(TOKYO Web) 自殺白書 「経済」理由の自殺半減 厚労省「法改正や法律相談の充実が奏功」 (産経新聞) - Yahoo!ニュース 警察庁の統計(統計|警察庁)から自殺者数の推移をプロットしてみる。 直接の出典はこちら。 http://www.npa.go.jp/safetylife/seianki/jisatsu/H27/H27_jisatunojoukyou_03.pdf 若者と高齢者の自殺深刻 ほんとうに若者と高齢者の自殺が深刻なのだろうか。 自殺者数のうち19歳以下と70代、80代の割合が増えていることから「若者と高齢者の自殺が深刻」としたようだ。 若者と高齢者の自殺者数そのものには増加傾向はみられない。 むしろ他の世代の自殺者数が減っているため
偏差値好きな人多い印象あるけどぼくはあんまり好きじゃなかった。 でもなんとなく Google アナリティクスデータで偏差値出してみたら、これはこれでけっこういいかも、と思った。 次元(単位)のない量にして、複数の指標どうしを概観的に比較できる。 セッション数、新規率、直帰率、平均滞在時間、ページビュー/セッションをページごとにくらべたヒートマップ(色付きテーブル)が以下です。 セッション数上位ページでは目立った違いは少ないけど、平均滞在時間の優等生は、 abrahamcow.hatenablog.com abrahamcow.hatenablog.com だった。 上のような図をかくための R のコードを以下に記載します。 library(RGA) library(dplyr) library(tidyr) library(ggplot2) authorize() prof <-list_
多くの訪問を集める主要ページにはこういう施策、テールの部分を支える裾野ページにはこういう施策、といった具合に、ランディングページを層別にして対策を立てる場合を考えます。 このとき、訪問(セッション)数全体の推移を見ただけでは、どの層がどう変化したか掴みきれず物足りないかもしれません。 そこで、下図のようなクロス集計表を作りました。 横軸が直近三ヶ月のセッション数、縦軸がその前の三ヶ月のセッション数です。 例えば、縦 (50,100] 横 (100,150] のマスには 6 という数字が入っています。 これは、前の三ヶ月のセッション数が 50~100 で、直近三ヶ月のセッション数が 100~150 になったランディングページが 6 つあることを示しています。 ヒートマップの対角線より右のほうに明るい色がついていたら、前の三ヶ月より上位層に移動したページが多いことが分かります。 今回はとくに目
下表のデータを人口ピラミッドの形で描いてみる。 (もうちょっときれいに描ける人いそう。ご意見求む。) user gender user age bracket users female 18-24 628 female 25-34 1001 female 35-44 416 female 45-54 174 female 55-64 85 female 65+ 40 male 18-24 2717 male 25-34 3967 male 35-44 2121 male 45-54 836 male 55-64 491 male 65+ 173 このようなデータを Google アナリティクスから R に引っ張ってくるのには RGA パッケージが便利。 #RGA パッケージでデータ取得 library(RGA) authorize() prof <-list_profiles() dat1
主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。 この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルは ここ からダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま
SearchConsoleRパッケージを利用したhtmlレポートの出力です。htmlファイルのサイズはデータが約700ほどで約1MBなのでメールで送付できる範囲かと思います。 出力例は仮想データとなります。過去記事を参考に実行環境を整えていただければと思います。 Rで解析:RStudioを使ったmarkdownでGoogleAnalytics! https://www.karada-good.net/analyticsr/r-228/ htmlでの出力を念頭に置いているので、javaを使用するDTパッケージを利用しています。インタラクティブに表を操作できます。 実行コマンドはR version 3.2.2で確認しています。 準備 初めに作業フォルダを指定し、下記のコマンドを実行することでエラーが出ません。冒頭に紹介した過去記事を参照ください。 [code language=”R”] #パッ
このセミナー、冒頭の渋谷 直正さん(日本航空 旅客販売統括本部Web販売部 1to1マーケティンググループ アシスタントマネジャー)のお話がとても参考になりました。 まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。 その渋谷さんの「実務で使う分析手法は5つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。 まず、みなさんが気にしている5つの手法とは、 クロス集計 ロジスティック回帰 決定木 アソシエーション分析 非階層的クラスター分析(k-meansなど) の5つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの5つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大の数学
統計(とうけい)は、現象を調査することによって数量で把握すること、または、調査によって得られた数量データのことである。(Wikipedia より) 統計に関する研究を行う学問が統計学。 用語 観測値:統計学が対象とする現象において観測を行うことで得られる値や属性。例)日本人の身長・体重など データ:観測値をまとめたもの。 データの基本統計量(代表値) データの分布の特徴を代表的に、要約して表す値を 基本統計量 あるいは 代表値 という。代表値には以下のようなものがある。 (算術)平均値 (arithmetic mean) 観測値 $x_1, x_2, \dots , x_n$の和をその総数で割った値 $\bar{x}$を 算術平均値、あるいは単に 平均値 という: 中央値 (median) 観測値を小さい順に並べた時、中央に位置する値を 中央値 という。 観測値が偶数個の場合は真ん中ふたつ
エクセルなどの表計算ソフトでは、日付や時間は数値で表されている。 このことは、日付を打ち込んでからセルを数値に変換すると、3~4万くらいの数字になることで確認できる。これは実は、1889年12月30日からの経過日数になっているらしい。 なんで1900年1月1日じゃないかというと、歴史的経緯にがあるとのこと。 そういうわけでエクセルのファイルをRで読み込むと、日付・時間変数が数値で与えられることがある。 そういう場合は、以下のコードで日付・時間型に変換できる。 # 06/29/15, 05/15/15 03:20 PM numeric.date <- c(42184.00000, 42139.63895) # 日時 as.POSIXct('1899-12-30') + as.difftime(numeric.date, units = 'days') # [1] "2015-06-29 00
Google Analyticsからデータを取得する「RGA」パッケージの新しいバージョンが登場したので、記事の内容を更新です。Google Analyticsからデータを取得するパッケージはいろいろありますが、使用方法が簡単な「RGA」パッケージはウェブ解析に必須だと思います。 RGAパッケージはデータを取得するコマンドだけでなく、DimensionとMetricsの一覧を取得するコマンドやShinyでインタラクティブ確認するコマンドも収録されています。 DimensionとMetricsの一覧をcsvに保存するコマンドを紹介します。ぜひ、活用ください。リアルタイムのアクセス状況を取得する「get_realtime」コマンドはかなり使い道があると思います。 RからSearch Consoleを操作できる「searchConsoleR」パッケージがあります。ぜひ、合わせて利用してください。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く