User Tools

Site Tools


post-processing_of_pacbio_assemblies_using_circlator

This is an old revision of the document!


Post-processing of PacBio assemblies using Circlator

개요

PacBio long read를 이용하여 염색체 수준의 조립물을 얻는 것은 이제 아주 일상적인 일이 되었다. 세균의 염색체는 원형이므로, 가장 이상적인 경우에는 양 말단에 서로 겹치는 염기서열이 출현하는 linear contig를 얻게 된다. 이를 조정하여 중복을 제거하고, 복제 원점(보통 dnaA를 첫번째 유전자로 삼음)을 기준으로 서열을 조절하는 일이 과제로 남는다(참조: 단일 contig 서열의 후처리)

매우 다행스럽게도 이러한 후처리 작업을 자동으로 실시하는 프로그램인 circlator(Genome Biology 2015 16:294)가 개발되었다. 입력물은 error-corrected long read와 assembly(FASTA)만 주어지면 된다. 프로그램에 대한 자세한 설명은 GitHub site를 참조하라.

설치 방법

http://sanger-pathogens.github.io/circlator/

pip3를 이용하거나, 혹은 최신 소스를 받아서 설치하면 된다. de novo assembler는 canu 혹은 SPAdes(3.7.1 권장)가 필요하다. 사전에 필요한 프로그램을 구성하는 것이 귀찮으면 소스 패키지 안에 들어있는 install_dependencies.sh 스크립트를 실행하는 것으로 충분하다. 그러면 build directory 안에 다음의 서브디렉토리가 생기고 그 하위에 필요한 프로그램이 전부 빌드된다.

MUMmer3.23     SPAdes-3.7.1-Linux     bwa-0.7.12          
canu-1.4       prodigal-2.6.2         samtools-1.3

활용 방법

기본 동작은 all task이다. 이를 실행하면 progcheck, mapreads, bam2reads, assemble, mergem clean 및 fixstart가 단계적으로 이루어진다. 기본 사용법은 다음과 같다. 첫줄의 $PATH 환경변수 설정은 각 상황에 맞게 알아서 실행하라.

$ PATH=/usr/local/apps/canu/Linux-amd64/bin:/usr/local/apps/SPAdes-3.7.1-Linux/bin:$PATH
$ circlator progcheck (optional)
$ circlator all [options] <assembly.fasta> <reads.fasta> <output directory>
post-processing_of_pacbio_assemblies_using_circlator.1508808981.txt.gz · Last modified: (external edit)