Factorization Machines の解説はこの記事がわかりやすかった: 一歩Matrix Factorization、二歩Factorization Machines、三歩Field-aware Factorization Machines…『分解、三段突き!!』 - F@N Ad-Tech Blog ただ Factorization Machines を動かすだけならモデルの提案者が公開しているlibFMとかを使ったほうが速い: libFMexeを動かすまで (R Wrapper for the libFM Executable参照記事) - Qiita でも統計キッズたちは観測モデルをポアソン分布にしたりとかしたくなるときがあるはず。 (今回のモデルは R と Stan で Factorization Machines - 廿TT と同じです。) Stanだと時間がかかる。
Factorization Machines の解説はこの記事がわかりやすかった: 一歩Matrix Factorization、二歩Factorization Machines、三歩Field-aware Factorization Machines…『分解、三段突き!!』 - F@N Ad-Tech Blog Factorization Machines は傾向線に以下の式を仮定した回帰型のモデルである。 ただし はドット積、 を表す。 例えばこんな感じの表が与えられたとき、 deviceCategory userGender userAgeBracket userType landingPagePath sessions desktop female 18-24 New Visitor /entry/2013/03/22/004017 11 desktop female 18-24
機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書) 作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る 『 ベイズ推論による機械学習入門』の例題です。 説明抜きでコードだけ貼りますね。 「完全分解変分推論」のほうはパラメータ推定が安定していなくて、初期値によって結果がだいぶかわってしまうようです。 基本的には「構造化変分推論」を用いたほうが良さそう、計算時間はかかるけど。 softmax <- function(x){ maxx <- max(x) exp(x-maxx)/sum(exp(x-maxx)) } logp_x <-function(x,lambda,loglambda){ x*loglambda-lambda } logsumexp <- f
TensorFlowで統計モデリング - StatModeling Memorandum に感化されて、 SIR モデルと非定常ポアソン過程 - 廿TT と同じようなことをTensorFlowでもやってみました。 TensorFlowには常微分方程式を解く関数もあるようです。 こんな感じです。 SIRのRを非定常ポアソン過程の強度関数として、パラメータ推定もやってみました。 こんな感じです。 全然関係ないけどIn All Likelihoodっていう本を買いました。冬休みはこれを読むんだ。 In All Likelihood: Statistical Modelling and Inference Using Likelihood (English Edition) 作者: Yudi Pawitan出版社/メーカー: OUP Oxford発売日: 2013/01/17メディア: Kindl
中原中也のサーカスという詩をたぶんあなたはすでにご存知だろう。 幾時代かがありまして 茶色い戦争ありました 幾時代かがありまして 冬は疾風(しっぷう)吹きました 幾時代かがありまして 今夜此処(ここ)での一(ひ)と殷盛(さか)り 今夜此処での一と殷盛り サーカス小屋は高い梁(はり) そこに一つのブランコだ 見えるともないブランコだ 頭倒(あたまさか)さに手を垂れて 汚れ木綿(もめん)の屋蓋(やね)のもと ゆあーん ゆよーん ゆやゆよん それの近くの白い灯(ひ)が 安値(やす)いリボンと息を吐(は)き 観客様はみな鰯(いわし) 咽喉(のんど)が鳴ります牡蠣殻(かきがら)と ゆあーん ゆよーん ゆやゆよん 屋外(やがい)は真ッ闇(くら) 闇の闇 夜は劫々と更けまする 落下傘奴(らっかがさめ)のノスタルジアと ゆあーん ゆよーん ゆやゆよん サーカス: 中原中也・全詩アーカイブ 「幾時代かがあり
モチベーション たとえばこういう表がある。 gist.github.com 表の左のほうにユーザー層の情報、右の方にユーザー層ごとのブログへのアクセス経路が書かれている。 どのユーザー層がどの経路を好むか知りたいとする。 そこでトピックモデルとしてポアソン分布を使った非負値行列因子分解を考える。 (トピックモデルシリーズ 6 GaP (Gamma-Poisson Model) - StatModeling Memorandum などを参照。) ユーザー層が文書、アクセス経路が単語に対応する。 ユーザー層の情報を捨てて、行列を分解してしまうのはおもしろくない。 ユーザー層の情報を説明変数として、ユーザー層ごとにトピックの構成が変わるようなモデルにしたい。 モデル 観測値を行列の積 で近似することを目指します。 Y: 観測された分解したい行列(N行K列) X: 観測された説明変数(N行J列)
下記の内容について「先行研究も調べずにがさつな分析で結論を出すのはよくない」(引用は不正確)というようなコメントを頂戴し、そりゃそうだとおもったので最低賃金と雇用の関係について勉強になりそうな文献へのリンクをいくつか貼ります。 http://davidcard.berkeley.edu/papers/njmin-aer.pdf https://www.rieti.go.jp/jp/publications/dp/13j008.pdf https://www.socsci.uci.edu/~dneumark/IZA%20JLP.pdf http://www.jil.go.jp/institute/zassi/backnumber/2009/12/pdf/041-054.pdf 最低賃金はやはり低熟練労働者に悪影響を与える - himaginaryの日記 以下の文章はあまり真に受けず他山の石と
以前に エクセルで無相関検定:失業率と野菜摂取量の相関 - 廿TT というエントリを書いた。 めちゃくちゃ批判されるかと思ったけどそうでもなかった。 じ、時系列データに対して単純な相関を算出している。。。 https://t.co/3yUB5ZEhRo— 統計たん@Rアイドル (@stattan) 2016年7月15日 「時系列データに対して単純な相関を見るのは意味がない」というのはどうやら統計に詳しい人の間では常識なようです。 なぜそうなるのかは正直よくわかっていないのですが、どうも自己相関のある系列どうしで相関係数を見ると、その系列どうしがまったく別々に動いていたとしても(両者がランダム・ウォークしていたとしても)、有意な相関や絶対値の大きい相関係数が得られやすいようです。 だとすると、これは時系列データに限った話ではないはず。 たとえば都道府県のデータだって隣り合う県どうしは影響しあ
アクセス解析の分野ではユーザーの離脱率や維持率を把握したいというニーズがあります。しかし、離脱するユーザーは単にサイトへの訪問を止めるだけで、わざわざ離脱を申告することはめったにありません。このような場合、例えば 「3ヶ月訪問がなければ離脱したと判断する」などのルールを決めることがあります。この「離脱した」と判断する区切りは、3ヶ月がいいのか、2ヶ月がいいのか、4ヶ月がいいのか、難しいところです。 その判断をサポートするために以下のようなグラフを書いてみてはいかがでしょうか。 データセットを学習期間と評価期間に分ける 閾値を定める 学習期間で閾値を超えた日数訪問しなかったユーザーを「離脱」、それ以外を「維持」と判断 維持と判断されたユーザーが、評価期間に再訪問があったユーザーの内、何パーセントかを数える(active) 同様、維持と判断されたユーザーが、評価期間に再訪問がなかったユーザーの
ggplot2 で左から右に内訳をドリルダウンしていく棒グラフ(ツリーマップ?)を書きました。 新規訪問で自然検索経由のデスクトップを利用している男性の25歳〜34歳のCVが多いことがわかります。 ついで再訪問でソーシャル経由訪問のモバイルを利用している男性の25歳〜34歳のCVが多いようです。 R のコードです。 library(googleAnalyticsR) library(cowplot) library(tidyr) library(dplyr) library(plyr) ga_auth() account_list <- ga_account_list() ga_id <- account_list[3,'viewId'] CVfilter <- filter_clause_ga4(list(met_filter("goal3Completions", "GREATER_T
分析対象 フリースタイルダンジョンはフリースタイル(即興)のラップバトルで、チャレンジャーがモンスターと呼ばれる強豪ラッパーを勝ち抜き、賞金獲得することを目指すテレビ番組です。 データは、 フリースタイルダンジョン 結果 勝敗 全試合 - 戯言 からもらいました。 成形したデータは以下に置いておきます。 FSD.txt · GitHub Score1 がチャレンジャーのスコア、Score2 がモンスターのスコアです。 ぼくは Web の知識がなさすぎてスクレイピングできないので、エディタでちまちま置換して成形しました。 だれか rvest の使い方を教えてください。 目的 ラッパーの強さを表す素朴な方法として、スコアの平均を出すことが考えられます。 しかし、これだと強い相手と当たった場合も、弱い相手と当たった場合も、スコアを同じ重みで評価することになります。 また、順序尺度のデータを単純に
モデル 時系列データ () があるとします. このデータが, 変化点()以前では平均 , 標準偏差 1 の正規分布に従い, 変化点から後には平均 , 標準偏差 1 の正規分布に従うと考えます. 標準偏差は既知とします. ここで は標準正規分布に従う確率変数です. 変化点 を最尤推定するには, 対数尤度関数に が与えられたときの , の最尤推定量(標本平均)を代入して尤度が最大になる点を探してやればよさそうです. 最大化すべき対数尤度関数は以下です. ここで は標準偏差 1 の正規分布の密度関数, , です. R で推定 乱数で適当なデータを作って, , , を推定してみます. , , , と設定しました. set.seed(1) x=c(rnorm(50,-1),rnorm(50,1)) #データの生成 ll1_f <- function(tau,n,x){ #尤度関数の定義 sum(dn
こんにちは~ 牛です 最近ブログのアクセス数が増えてきて、リアルのお知り合い以外の方も見てくれてるみたいでびっくりしております>< 本当にありがとうございます(;_;) さてさて そういえば自己紹介してなかったなーなんて思いました!!! 最近まったく出会いがないなぁと思って、思い切ってはてなブログを始めました。 よく癒し系と言われます。 めっちゃ甘えたがりなので、ちゃんと受け止めてくれる人が好きです。 一緒にいるときは、ずーっとくっついていたいです(*´艸`*) ここで運命の人に出会えるかもなんて思ってる私は甘いのかな。。 でも早く好きな人をひとりだけ見つけて退会したいです(;_;)/~~~ まずはメールから仲良くなれたら嬉しいです。よろしくお願いします(o(´∀`)o)ワクワク 女の人からの連絡も歓迎ですよ〜笑 血液型:B 星座:さそり座 興味あること:恋人、結婚相手、ドライブ、お茶した
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く