whole-genome_alignment
This is an old revision of the document!
Table of Contents
Whole-genome alignment (MUMmer)
MUMmer는 suffix tree algorithm을 이용하여 genome sequence 수준의 alignment를 생성하는 도구이다. 발표된지는 매우 오래되었으나 매우 완성도가 높아서 여전히 많은 프로그램에서 활용되고 있다. MUMmer는 alignment를 시각화하는 도구는 탑재하고 있지 않으므로 gnuplot에 의존한다. 핵심 프로그램인 mummer는 짧은 exact match(20 bp)의 단위를 빠르게 탐색하는 역할을 하며, 이들이 어떤 기준을 충족하여 모여있으면 이를 확장해 나가는 alignment generator script(예: nucmer)와 기타 utility가 패키지에 포함된다.
MUMmer로 할 수 있는 작업
- Aligning two finished sequences (highly similar with/without rearrangements, fairly similar/dissimilar sequences)
- Aligning two draft sequences
- Mapping a draft sequence to a finished sequence
- SNP detection
- Identifying repeats
부속 프로그램이 매우 많으므로 PATH 환경변수에 설정해 둔다.
$ export PATH=$PATH:/usr/local/Bio/MUMmer3.23
GUI 프로그램(gnuplot과 evince)를 실행해야 하므로 윈도우측에서 Xming을 실행해 둔다.
샘플 서열의 다운로드
(주의) 2015년 연말을 지나면서 NCBI의 genome sequence URL이 바뀌었음. 교재의 주소는 이를 미처 반영하지 못하였으므로 이것을 따르기 바람.
$ wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF_000237325.1_ASM23732v1/GCF_000237325.1_ASM23732v1_genomic.gbff.gz $ gzip -d GCF_000237325.1_ASM23732v1_genomic.gbff.gz $ seqret GCF_000237325.1_ASM23732v1_genomic.gbff M1.fa $ wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF_000146875.3_ASM14687v2/GCF_000146875.3_ASM14687v2_genomic.gbff.gz $ gzip -d GCF_000146875.3_ASM14687v2_genomic.gbff.gz $ seqret GCF_000146875.3_ASM14687v2_genomic.gbff E681.fa $ wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF_000007805.1_ASM780v1/GCF_000007805.1_ASM780v1_genomic.gbff.gz $ gzip -d GCF_000007805.1_ASM780v1_genomic.gbff.gz $ seqret GCF_000007805.1_ASM780v1_genomic.gbff DC3000.fa $ wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF_001006455.1_PSt_v01/GCF_001006455.1_PSt_v01_genomic.gbff.gz $ gzip -d GCF_001006455.1_PSt_v01_genomic.gbff.gz $ seqret GCF_001006455.1_PSt_v01_genomic.gbff ATCC11528.fa
Comparison of two finished genome sequences
[1] MUMmer 사용
$ mummer -mum -b -c E681.fa M1.fa > mummer.mums $ mummerplot -p mum mummer.mums (gnuplot 화면이 열림) $ mummerplot --postscript -p test mummer.mums $ evince test.ps $ mummerplot -x "[0,100000]" -y "[0,100000]" mummer.mums
[2] Nucmer 사용
Finished 서열에 draft(as queries) 정렬하기
[1] Draft sequence 재정렬하지 않기
[2] Draft sequence를 reference에 맞추어 재정렬하기
참고자료
whole-genome_alignment.1455618314.txt.gz · Last modified: (external edit)

