If you are not redirected automatically, follow the link to CVF open access
If you are not redirected automatically, follow the link to CVF open access
岡野原さんのtweetで紹介されていたPower Iteration Clusteringという文章分類の手法に関する論文[1,2]を読んでみた。 背景 n個のデータX={x_1,...,x_n}が与えられたときに各データ間の類似度s(x_i,x_j)を成分に持つ類似度行列Aを考える。 また次数行列としてAのi行目の値を合計したd_{ii} = \sum_j A_{ij}を対角成分にもつ対角行列をDとする。 このときW:=D^{-1} Aをnormalized affinity matrixと定義する。簡単のためWはフルランクであるとする。 この行列はすべての要素が1となる固有ベクトルをもち、この時固有値は1となる。実はこれが最大固有値である(行列Aの行和が1となること+Gershgorin circle theorem(en)より導かれる)。また、行列Wの固有値を1=λ_1>=...>=
週刊少年ジャンプの掲載順位データという記事を見つけた。そこで、「早いペースで掲載順位が落ちていく漫画は打ち切られそう」という仮説があったので、どのくらいのペースで掲載順位が落ちると打ち切られるのかやってみる。 結果としては4週目以降から打ち切られるものがなんとなく分かれる感じ。 連載開始は宣伝の意味を兼ねて、第1位に掲載されるとして、その後は人気が落ち続けるというモデルを考える。単調減少ならば指数関数モデルを使えるし、ノンパラメトリックならばIsotonic regression (等調回帰とでも訳す)が使える。 打ち切りの定義としては、かなり恣意的ではあるが、半年くらいしか連載できなければ打ち切りとしてみて、24週でとりあえずやってみる。 前のリンクからデータを拝借し、2003年以前に連載されているものと、2015年20号で連載継続しているものを除外し、24週より多く連載している77作品
1 2 3 4 2 X Y X Y 5 X X X X i X i 6 7 8 9 10 X Y Ti 11 12 R.Agrawal and R.Srikant "Fast Algorithms for Mining Association Rules", VLDB 1994 minsup minconf minsup minconf 13 minsup 14 15 minsup minsup 16 minsup minsup 17 18 19 minconf 20 21 minconf minconf minconf 22 23 24 J.Han, J.Pei, and Y.Yin “Mining Frequent Patterns without Candidate Generation” SIGMOD 2000 minsup minsup 25 26 27 28 29 30 31
2016年最初の記事ということで、もはや1月下旬に差し掛かりつつありますがこちらでは改めて、あけましておめでとうございます&本年もよろしくお願いいたします。 で、新年一発目のお題は。。。実は似たようなお題で過去にも記事を書いていますが(笑)、年も改まったことなので今一度備忘録的におさらいしてみたいと思います。観点としては、どちらかというと「これからデータ分析のカルチャーを職場に導入していくとしたらどうやってステップアップさせていくか」みたいなところです。なお過去記事はこちら。 この辺の話題を踏まえながら、過去記事リンクのオンパレードで恐縮ですがちょっと一席やってみます。なお以下に挙げる「ステージ」はあくまでも一例であり、業界によってはもっと高度な方向に展開させられる(orもっとプリミティブなレベルに留まる)こともあるので、参考程度に見てもらえればと。 特にここでは「まだデータ分析を始めてい
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く