This is an old revision of the document!
Table of Contents
Post-processing of PacBio assemblies using Circlator
개요
PacBio long read를 이용하여 염색체 수준의 조립물을 얻는 것은 이제 아주 일상적인 일이 되었다. 세균의 염색체는 원형이므로, 가장 이상적인 경우에는 양 말단에 서로 겹치는 염기서열이 출현하는 linear contig를 얻게 된다. 이를 조정하여 중복을 제거하고, 복제 원점(보통 dnaA를 첫번째 유전자로 삼음)을 기준으로 서열을 조절하는 일이 과제로 남는다(참조: 단일 contig 서열의 후처리)
매우 다행스럽게도 이러한 후처리 작업을 자동으로 실시하는 프로그램인 circlator(Genome Biology 2015 16:294)가 개발되었다. 입력물은 error-corrected long read와 assembly(FASTA)만 주어지면 된다. 프로그램에 대한 자세한 설명은 GitHub site를 참조하라.
설치 방법
http://sanger-pathogens.github.io/circlator/
pip3를 이용하거나, 혹은 최신 소스를 받아서 설치하면 된다. de novo assembler는 canu 혹은 SPAdes(3.7.1 권장)가 필요하다. 사전에 필요한 프로그램을 구성하는 것이 귀찮으면 소스 패키지 안에 들어있는 install_dependencies.sh 스크립트를 실행하는 것으로 충분하다. 그러면 build directory 안에 다음의 서브디렉토리가 생기고 그 하위에 필요한 프로그램이 전부 빌드된다.
MUMmer3.23 SPAdes-3.7.1-Linux bwa-0.7.12 canu-1.4 prodigal-2.6.2 samtools-1.3
활용 방법
- (인내심이 부족한 사람들을 위해) https://github.com/sanger-pathogens/circlator/wiki/Brief-instructions
기본 동작은 all task이다. 이를 실행하면 progcheck, mapreads, bam2reads, assemble, mergem clean 및 fixstart가 단계적으로 이루어진다. 기본 사용법은 다음과 같다. 첫줄의 $PATH 환경변수 설정은 각 상황에 맞게 알아서 실행하라.
(필요한 경우) $ pyenv global 3.5.1 $ PATH=/usr/local/apps/canu/Linux-amd64/bin:/usr/local/apps/SPAdes-3.7.1-Linux/bin:$PATH $ circlator progcheck (optional) $ circlator all [options] <assembly.fasta> <reads.fasta> <output directory>