de_novo_assembly
Table of Contents
De novo assembly
1. Velvet
(optional) Interleaved file의 준비
$ /usr/local/Bio/velvet_1.2.10/contrib/shuffleSequences_fasta/shuffleSequences_fastq.pl BL21-20x_1.fastq BL21-20x_2.fastq BL21-paired.fastq
- 최근에는 -separate 옵션이 추가되어서 2개의 paired file을 그대로 공급해도 됨
- velvetg 또는 velveth를 실행하여 MAXKMERLENGTH를 확인
[1] Velvet의 직접 실행(velveth -> velvetg)
$ /usr/local/Bio/velvet_1.2.10/velveth velvet_out 53 -shortPaired -fastq BL21-paired.fastq 또는 $ /usr/local/Bio/velvet_1.2.10/velveth velvet_out 53 -shortPaired -fastq -separate BL21-20x_1.fastq BL21-20x_2.fastq $ /usr/local/Bio/velvet_1.2.10/velvetg velvet_out -cov_cutoff auto -exp_cov auto $ /usr/local/Bio/bin/n50.pl contigs.fa (결과의 확인)
[2] Velvetoptimiser를 이용한 최적화 실행
- BioPerl이 설치되어 있어야 함
- velveth, velvetg가 PATH 환경변수에 설정되어 있어야 함
- -optFuncKmer 기본 설정은 n50(Lcon은 large contig의 수에 최적화)
- hash length(Kmer)의 범위를 -s <start value> -e <end value>로 설정하면 2씩 증가시켜 가면서 실행함. step value(기본 2)는 –x로 설정
$ export PATH=$PATH:/usr/local/Bio/velvet_1.2.10
$ /usr/local/Bio/velvet_1.2.10/contrib/VelvetOptimiser-2.2.4/VelvetOptimiser.pl -s 35 -e 61 -optFuncKmer=Lcon -f '-shortPaired -fastq BL21-paired.fastq' $ /usr/local/Bio/bin/n50.pl auto_data_39/contigs.fa (결과의 확인)
2. A5-miseq (ngopt)
- A5-miseq(Bioinformatics. 2015 Feb 15;31(4):587-9)은 파이프라인 구동에 필요한 모든 요소 프로그램이 패키지 안에 들어 있어서 이들을 별도로 설치할 필요가 없음
- 어댑터 서열 제거와 trimming에는 trimmomatic, error correction에는 SGA, de novo assembly에는 IDBA_UD, scaffolding에는 SSPACE를 사용
- Interleaved file이나 gzipped fastq file을 제공해도 됨
- '–begin=2 –end=5' 옵션으로 실행 단계(1~5)를 지정할 수 있음
$ /usr/local/Bio/a5_miseq_linux_20140604/bin/a5_pipeline.pl --threads=8 BL21-20x_1.fastq BL21-20x_2.fastq BL21-a5 $ /usr/local/Bio/bin/n50.pl BL21-a5.final.scaffolds.fasta (결과의 확인)
de_novo_assembly.txt · Last modified: 2021/03/17 13:09 by 127.0.0.1