与えられたリファレンスファイル、リードファイルをBWA,EMBOSSのwaterを用いてmappingする BWAによるmapping結果の可視化、.sam形式の解読 waterの結果とBWAの結果を比較するために前者の形式を後者のそれに合わせるプログラムの作成 上のプログラムをHadoop上でも正しく動くように調整 使用データ リファレンス: e_coli_k12_mg1655.fasta 以下、e.fastaと表記する リード: IlluminaのNGSを用いて得られたseq_mg1655_5001.fastq,seq_mg1655_5002.fastq 以下、それぞれ1.fastq、2.fastqと表記する ここで、fasta形式とfastq形式について説明する。 fasta形式 1行目は>から始まるヘッダ行。このデータでは gi|499|ref|Escherichia coli s