この記事はバイオインフォマティクス Advent Calendar 2020の22日目の記事です 今年はあまり書くことが思いつかなかったので、自分が注目しているPCA(Principal Component Analysis, 主成分分析)ベースの手法を紹介する。 1. Randomized PCA Halko, N et al., FINDING STRUCTURE WITH RANDOMNESS: PROBABILISTIC ALGORITHMS FOR CONSTRUCTING APPROXIMATE MATRIX DECOMPOSITIONS, 2010 データを一度ランダムに低次元に射影してコンパクトにしてから扱うことで、大規模データ行列も高速・低メモリで計算できるPCA。 今年出したPCAのベンチマーク論文で、速度、精度ともに性能が良かった。 乱数を使っているのに、驚くほど正確