この前のエントリで、Hadoopを使って統計処理を行なう際に、データのサンプリングを行って高速化する方法について検討しました。 Hadoopを使ってサンプリングを行なうには - nokunoの日記 今回は、並列化とかややこしいことは考えずにPythonでデータのサンプリングを行なう方法を検証してみました。 重複を許すサンプリング重複を許すサンプリングの実装は簡単です。配列のサイズの中から必要な数だけランダムにインデックスをサンプリングすれば良いのです。 #!/usr/bin/env python import random def sampling(a, n): result = [] for i in range(n): index = random.randint(0,len(a)-1) result.append(a[index]) return result if __name_