サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
都知事選
www.marketechlabo.com
ついにGoogleアナリティクスの無料版で、マウスのドラッグ&ドロップでディメンションや指標を選択し、自由にレポートを作れるようになった。 アドホックなウェブ解析の変遷 ある程度まともにウェブ解析をやっている方であればGoogleアナリティクスやAdobe Analyticsの画面の定型的なレポート、あらかじめ定義されたレポートを見るだけでなく、知りたい指標についてその都度(アドホック)に 対象データを絞り込む(スライス) 切り口を変えて見る(ダイス) 細分化して見る(ドリルダウン) 切り口を掛け合わせて見る 新しい指標を作ってそれを見る などをすることが多いのではないだろうか。 Adobe Analyticsの基本機能としてワークスペース(Workspace)というものが2年ほど前?に現れた。Adobe Analyticsのデータに対して、ディメンションや指標をドラッグ&ドロップでレポー
ワーキングディレクトリのセット プロジェクトごとにワーキングディレクトリをセットするといい setwd('/home/ruser/data/') テキストファイル(CSV)の読み込み 万能の(オプションを詳細に指定する必要があるが)read.table()、CSVファイルの読み込みに特化したread.csv()、タブ区切りテキストの読み込みに特化したread.delim()がある。 x.df <- read.csv('filename.csv', stringsAsFactors = F, fileEncoding = 'UTF-8-BOM', na.strings = '') ヘッダ header = T/F デフォルトでread.csv()はヘッダあり、read.table()はヘッダなし 文字コード fileEncoding = "文字コード名" Windowsで作ったCSVを読み込
クラスター分析は 距離行列の生成(類似度行列ではない!) クラスタリングの実行 という流れになる。 それぞれのステップで、採用する 距離の種類 クラスタリングの方法 がチューニング変数となる。 この順に手順を見ていく。 行数、列数の多いビッグデータ向きのデータ形式であるMatrixパッケージに対応した距離行列についても説明する。 距離行列を生成する 類似度行列ではなく距離行列を作る。similarityではなくdistanceを作る。 直感的にはデータから距離の指標(どれだけ離れているか)ではなく類似度(どれだけ近いか)の指標を抽出し、そこからクラスタリングしたいケースが多いのだが、あくまで類似度指標に基づいた距離行列を生成するのである。 通常のdist関数では対応する距離の種類が少ないのでproxyパッケージを使う。 距離行列を生成するメソッドはdist(data, method="距離
NSEとは NSEとはNon-standard evaluationの略。 関数に対して値を与えるのではなく、表現式(expression)を与えて処理させる方法。 言葉にするとわかりにくいので、具体例で。 NSEを使う局面 やりたいこと たとえばデータフレームcustomer.df内の f_purchaseとdurationという列に対して処理をする関数myfun()を作りたい場合 直感的には myfun(customer.df, f_purchase, duration) という引数の与え方をしたい。これがRのもっとも自然なコーディングである。 たとえば glm(f_purchase ~ duration, data = customer.df, family = binomial()) などと同じである。 これを実現するのがNSEである。 NSEを使わない場合、 myfun(cust
一般化線形モデル(GLM)は統計解析のフレームワークとしてとにかく便利。Rでもビルトインの関数から拡張までさまざまなライブラリから提供されている機能だが、さまざまなライブラリがありすぎてどれを使えばいいのかわかりにくいのと、さらに一般化線形モデル(GLM)自体にもいろいろな亜種があるため、どの手法をどのライブラリの関数で実装すればいいかわからなくなる。 そこでRに実装されている代表的なGLM系の関数と特徴についてまとめてみた。 一般化線形モデルのおさらい 一般化線形モデルとは $$ y = g^{-1}(\alpha + \beta_1 x_1 + \beta_2 x_2 + … + \beta_i x_i) + \epsilon $$ で指定されるモデル。 一般化線形モデルを決定するのは 誤差構造:目的変数の分布 線形予測子 $\alpha + \beta_1 x_1 + \beta_2
準備 決定木(decision tree)分析をする際、まず目的変数の種類とアルゴリズムを決定する。 アルゴリズム CART CHAID ID3 / C4.5 / C5.0 目的変数の型 目的変数の型によって扱いが変わる 質的変数(2値変数):分類木→目的変数が0/1, T/Fの場合はas.factor()でfactor型にデータ変換しておく 量的変数:回帰木 survivalオブジェクト (生起を表す2カラム) CARTはすべて対応、C4.5/C5.0は質的変数のみ ここではCARTアルゴリズムでツリーモデルを生成するrpartと、ランダムフォレストrangerを中心に説明する。 データセットと前処理 Default of Credit Card Clients Dataset データセットの主な留意点 30000行25変数 最初の列が識別子(ID)→除外 3列目SEX, 4列目EDUC
数理モデリングの考え方 因果関係を定量化 「Xという要因→Yという結果」という関係を $$Y=a+bX$$ で表す。 X=説明変数(独立変数) Y=被説明変数(従属変数、目的変数) いわゆる「回帰分析」である。 目的 因果関係とインパクトの大きさの特定 予測 モデリングの手続き モデル式の選択(単回帰、ロジット、…) 従属変数の特徴(分布の形状、ばらつき方)によって適切なモデルを選択する パラメータの推定 さまざまな推定法がある(最尤法、最小二乗法) そのモデルでいいか検証 あてはまりのよさ(fit) 決定係数 AIC 残差の評価(独立性、正規性、等分散性、線形性) 予測値 vs 残差 正規QQプロット 外れ値の評価 てこ比 Cookの距離 バリデーション(検証用データで予測精度を見る) その他(Profit / Lossなど) モデルを選択 ダメな場合、変数の出し入れや変数変換を試す よ
昨今Googleタグマネージャ(GTM)やYahoo!タグマネージャー(YTM)など無料で使えるタグマネージャーが現れ、タグマネジメントが一般化してきている。ではそもそもタグマネジメントとは何か。タグマネージャは変われどタグマネジメントの考え方は基本的にどのツールを使っても同じ。その基本を説明するとともに、後半では無料で最もお手軽に使えるGoogleタグマネージャの設定方法の解説をする。 タグマネジメントとは 「タグマネジメント」とはその名の通りwebサイトに設置するタグの一元管理である。 では管理すべきタグにはどんなものがあるのか。 アクセス解析ツールのタグ 広告のタグ コンバージョンタグ リマーケティングタグ 接客ツール(チャットなど)のタグ ABテストツールのタグ などがある。 ある程度web施策の程度が進んでいくと、これらのタグを複数、それぞれ異なるページに設置する必要が出てくる。
旧来からあるニュースメディアなどのサイトに加え、雑誌もwebメディアを持つようになってきている。また最近ではオウンドメディアも乱立しているなど、数多くのメディアサイトがひしめき合っている。 こういったサイトではお問い合わせ、資料請求といった目先のコンバージョンがない。会員登録などはあったとしても、サイト全体のゴールというほどの位置づけではない。 こういった目先のコンバージョンポイントのないメディアサイトのアクセス解析で考慮することを解説する。 メディアサイトの分析で考慮すること メディアサイトのイシュー メディアサイトの運用の主眼はPV数を増やすことに置かれていることが多い。 それ以外ではユーザ数を増やす、滞在時間を上げる、会員数を増やすなどである。 それを実現するためのサイト内での施策は コンテンツ 何がウケるのか、どんな記事を書いたらいいのか UI 基本的にページ遷移させることに主眼
Googleタグマネージャー(GTM)とはGoogleが提供している無料のタグマネージャ。 Googleアナリティクスの管理に向いている。 設置 タグは2個あり、両方設置する。それぞれ設置個所が決まっている。 ~内 <body>開始タグの直後 ここにないとSearch Consoleなどの認証で失敗する。 タグの設定 タグ+トリガー+変数 のセット→これら設定の一式をコンテナという タグ→実行するタグ トリガー→タグの実行(発火)条件 変数 トリガーの中での条件判定に使う タグに動的に値を渡す(データレイヤー) 条件判定で使う変数は、たとえば クリックしたリンクのURL ログイン済みかどうか(フラグ) など、その値によってタグを実行するかどうかの扱いが変わるもの。 タグに動的に値を渡すというのはサーバから出力される問合せ番号や注文番号など。 サーバで処理をした結果をGoogleアナリティク
一般的なSQLに慣れてきた人がBigQuery(Legacy SQL)を使う際によくハマるポイント、 特にGoogleアナリティクス360(旧Googleアナリティクスプレミアム)が出力するログデータを扱う場合に直面する問題を中心に解説する。 Googleアナリティクス360のログデータはBigQueryの特徴的なところを嫌というほど満載している。 ということで、これを扱えれば大概の問題には対応できるようになるだろう。 なおLegacy SQLに限定した話。Standard SQLは未検証。 言語個別の仕様 ネストされたデータ形式 BigQueryでは各レコードの1個のカラムに複数の値、つまり複数行に相当するデータを入れることができる仕様になっているのが大きな特徴である。 1つのセルにスカラ値ではなくテーブルが入るイメージ。 データに親子関係があって一般的なリレーショナルデータベースでは子
クラウドを使った理想のバッチ運用 Google Compute Engineのメリットはリサーブ不要で、 使う時間だけ起動してコストメリットを享受できる点にある。 毎日決まったバッチ処理をする時間だけインスタンスを起動し、終了時に停止する運用をすれば、 本当にバッチ処理を実行する時間しか課金対象にならない。 ハイスペックなインスタンスを使ってもそんなにコストはかからない。 そんな運用ができたら、毎日決まった時間にインスタンスを起動することができたら理想なのだが… 実はGoogle Cloud Platformの管理画面上ではできないのだが、 インスタンス管理用のGCEインスタンスを作れば可能になる。 他のインスタンスの実行管理をするためのインスタンス(マスタ)を常時起動しておいて、 そこからバッチ処理用のインスタンスをタイマー(cron)で起動させるのである。 大まかな流れ Google
どちらのほうが意味を見いだせるか、知見を導き出すポテンシャルがあるか? ケース1では流入数に違いはあるものの、CVRについては何の情報も持たない。 ケース2で初めて記事のパフォーマンスを議論できる。 比較の視点 「ユーザ種別」が「新規ユーザ」の場合の「流入元」ごとの「コンバージョン率」を見る(セグメント) 「コンバージョン率」の推移を見る(トレンド) (前年と比較して)「コンバージョン率」がいいか悪いかを判断する(ベンチマーク) 視点が細分化されていく、対象を分けて見ていくのである。 セグメントとは絞り込むこと。新規ユーザとリピータとで行動の傾向が大きく異なる場合、それらをごちゃ混ぜにして数字を見ても意味のある示唆は出にくい。 トレンドは時系列での推移を見ることである。増加しているのか、減少しているのか、周期性があるのか、それによって得られる示唆は異なる。 ベンチマークは比較すること。何か
Webサイトの分類とKPIの方向性 目的のあるサイト 特定分野のポータルサイト、情報サイト(比較サイト、不動産ポータルなど) リードを送る 企業サイト ブランド紹介、理解 実店舗誘導 ECサイト リード獲得型(問合せ、資料請求) キャンペーン、プロモーションサイト 知ってもらう 参加してもらう 会員向けサイト 特定の行動 アクティブ率を高める →目的の達成数がKGIになる。KPIはそれを構成する要素。 基本的には目的達成までのカスタマージャーニー、コンセプトダイアグラムを描き、各ステップの到達数を見ていくのがいい。 目的の種類によってセッション限りで達成する場合と、ある程度のリードタイムをもって達成する場合がある。その場合は訪問間隔や訪問回数などCRM観点も意識する。 目的のない(暇つぶし)サイト 動画 ニュース 2chまとめ キュレーション ソーシャルメディア →訪問者の特定の行動がマネ
一般化線形モデル(GLM)は統計解析のフレームワークとしてとにかく便利。Rでもビルトインの関数から拡張までさまざまなライブラリから提供されている機能だが、さまざまなライブラリがありすぎてどれを使えばいいのかわかりにくいのと、さらに一般化線形モデル(GLM)自体にもいろいろな亜種があるため、どの手法をどのライブラリの関数で実装すればいいかわからなくなる。 そこでRに実装されている代表的なGLM系の関数と特徴についてまとめてみた。 一般化線形モデルのおさらい 一般化線形モデルとは $$ y = g^{-1}(\alpha + \beta_1 x_1 + \beta_2 x_2 + … … 続きを読む → 使うデータセット Firebaseのパブリックデータが以下にあるのでこれを使う。 firebase-public-project.analytics_153293282.events_* 06
Googleアナリティクスの設定を効率化するために、 管理画面を見る前に決めておくべき項目のチェックリスト Googleアナリティクスの管理画面での設定作業の手順 設定内容を一覧で出力するツール を紹介する。設定内容の出力は初期設定時に限らず、現状のアカウントの設定状況を把握する上でも役に立つだろう。 Googleアナリティクス設定前チェックリスト Googleアナリティクスの管理画面にログインする前に決めておくべき要件で、 Googleアナリティクスに限らない、アクセス解析の要件定義である。 これを決めずに管理画面を見るのは時間の無駄。 このチェックリストを完成させるのに時間を割こう。 重要度:高 工数に影響するもの (8) 計測対象 どのドメイン どのディレクトリ クロスドメイントラッキングの有無 おおよそのページ数 タグマネージャ経由でタグを設置するかどうか。その場合GTMかどうか。
Googleは2024年中のChromeのサードパーティcookie廃止に向けて動いている。AppleはすでにITPによってサードパーティcookieはデフォルトで使えなくなっているということで、2024年をもってほぼすべてのウェブブラウザでサードパーティcookieが無効化されることになる。 そんな中さまざまな自称「ポストcookie」「cookieレス」ソリューションが出てきているのだが、それらはどれも完全にサードパーティcookieを代替するわけではなく、これまでサードパーティcookieが担ってきた役割を部分的に違う方法で実現しようとしているものにすぎない。ここではソリューションの種類… 続きを読む → GA4の探索レポートにおけるディメンションと指標名の英語(オリジナル)と日本語の画面で表示される訳語の比較表。中には怪しい訳があるので、オリジナルの単語の意味に照らし合わせて扱った
このページを最初にブックマークしてみませんか?
『marketechlabo – デジタルマーケティングに取り組む企業のために、データ・テクノ...』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く