NTT Tech Conference #2 にて話した資料 時間が足りなかったので全部は話せなかった。

次元削減とは データの次元削減(Dimensionality reduction) + データの可視化(Data Visualization) PCA Principal Component Analysis(PCA) randomized PCA Online Robust Principal Component Analysis(OR-PCA) 多様体学習 t-Distributed Stochastic Neighbor Embedding(t-SNE) Multidimensional Scaling(MDS) Isomap Locally Linear Embedding (LLE) Laplacian Eigenmaps(LE) Semidefinite Embedding (SDE) Latent Dirichlet Allocation(LDA) Labeled LDA P
はじめに 最近よく見かける「t-SNE」という非線形次元圧縮手法を試してみた。 t-SNEとは t-Distributed Stochastic Neighbor Embedding SNEと呼ばれる次元圧縮手法の問題点を改善した手法 SNEは、「各点間の"ユークリッド距離"を、類似度に相当する"条件付き確率"に変換して低次元にマッピングする手法」のこと 各点について、高次元での確率分布と低次元での確率分布が一致するように低次元での点を探している 確率分布の違いは「カルバックライブラー情報量」で、これを損失関数にして勾配法で低次元の点を求める 低次元での分布に「自由度1のt-分布」を利用する さらに、高速化を行った「Barnes-Hut t-SNE」という手法ではO(n log n)で計算できる http://arxiv.org/abs/1301.3342 詳しい説明は、元論文や紹介記事が
はじめに 前回は、並列システムの性能指標について紹介し、また、データ処理におけるアルゴリズムと、選択処理の並列化方法を紹介しました。今回からは、結合処理の並列化方法について説明します。まずは、結合処理における基本的な並列化方法について述べ、次に、ソートマージ結合の具体的な並列アルゴリズムを説明していきます。 結合処理の並列化方法 結合処理は、前回述べたとおり、複数のデータを、当該データを構成するレコード(タプル)における属性値を用いてある条件に基づいて連結することにより、1つのデータにする処理です。簡単のため、以降では、「ある条件」は複数のデータの属性値が同一である、とします。すなわち、結合における最も一般的な方法である等結合を対象として話を進めていきます。また、特に断りがない限り、2つのデータを結合するものとします。 等結合処理における並列化の基本的な方法は、次の2つのステップからなり
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く