※本エントリでは倫理問題をすっ飛ばしております。本エントリに限った話であり、私がゲノムについての生命倫理学的側面をないがしろにしているわけではありません。 まあ文句言いながらも大変興味深く見守ってるわけなんですけど http://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=DRA000583 fastqって、short readかよ!*1 ということは、この「個人ゲノム」データを皆様が楽しむためにはここから膨大なデータをダウンロードしたあと次のようなステップを踏むことになります。 プリプロセッシング。精度の悪いリードをフィルターするなど。 BWAかなにかを使ってリアラインメント。25 - 200塩基程度のshort readを、30億塩基からなる参照ヒトゲノム配列に貼り付けていく*2。計算機負荷高し。 ポストプロセッシング GATKかSamT