단일 contig 서열의 후처리

개요

Sanger sequencing 방법이 주류를 이루던 과거에는 복잡한 finishing 과정을 거쳐서 실제 염색체에 해당하는 단일 염기서열을 최종적으로 만들어내야 했지만 요즘은 PacBio sequencing을 통해서 단번에 단일 contig 서열을 얻게 되었다. 세균의 유전체는 원칙적으로 원형 구조를 이루고 있으므로, genome project를 통해 완성된 단일 서열은 양 끝에 겹치는 서열이 존재하게 된다. 이를 제거하는 일과 더불어서 putative replication origin(oriC)영역을 서열의 시작 부분이 되도록 조정하는 작업이 필요하다. 보통 chromosomal replication initiator protein인 dnaA gene이 첫번째 유전자가 되도록 조정하는 것이 관례이다.

서열 말단의 overlap 검출

Contig 서열의 앞부분 20 kb 정도를 끊어내어 이를 query로 사용, 서열의 전체에 대해서 blastn으로 검색을 한다. 서열의 끝부분에 같은 방향으로 match가 발견되면 circular conformation을 이루는 것으로 추정할 수 있다. 그러나 단순한 repeat이 발생한 것이 아닌지 의심해 보아야 한다. 서열의 시작과 끝부분은 일반적으로 quality가 좋지 않으므로 100% identical한 alignment를 하지 못할 수도 있으니 유의해야 한다.

서열의 전환과 일반적인 편집

EMBOSS package에는 서열의 조작을 비롯한 다양한 생명정보 분석용 프로그램이 포함되어 있다. 설치하기가 불편하면 EMBOSS server(사례)를 이용해도 된다.

EMBOSS 패키지 내의 프로그램 사용법 확인

$ wossname <keyword> (keyword와 관련있는 EMBOSS 프로그램 출력)
$ tfm <program> (특정 program의 상세한 매뉴얼 출력)

seqret 기본 사용법

단일 서열을 수록한 fasta file에 대한 조작 방법을 소개한다.

$ seqret -sbegin 1 -send 10000 -sequence large_sequence.fa -outseq extracted_sequence.fa
$ seqret -sbegin 1 -send 10000 large_sequence.fa extracted_sequence.fa (간단한 사용법)
$ seqret -sbegin 1 -send 10000 -sreverse large_sequence.fa extracted_sequence_revcom.fa
$ seqret GenBank_In.gbk Fasta_out.fa (포맷 전환; 기본 출력은 fasta)
$ seqret -feature GenBank_In.gbk embl:EMBL_out.txt (feature를 포함하여 전달)

- Multi-fasta file인 contigs.fa에서 특정 서열(contig_1)만을 출력하려면 "seqret contigs.fa:contig_1 contig_1.fa"라고 친다.
- Subsequence를 취하지 않고 전체를 reverse complementary sequence로 전환하려면 revseq를 사용한다.

Overlap 탐색의 실제

다음은 NCBI blast+를 사용한 사례이다. Gepard(GEnome PAir Rapid Dotter)도 도움이 될 것이다.

$ seqret -sbegin 1 -send 20000 SB_HGAP_old.fa:SB_hgap1_14 query.fa
$ makeblastdb -in SB_HGAP_old.fa -dbtype nucl
$ blastn -db SB_HGAP_old.fa -query query.fa –out blast.out

GC skew 그리기

직접적인 GC skew보다는 cumulative GC skew가 oriC를 파악하기에 더 좋다. 온라인 툴인 GenSkew를 사용하거나 간단한 Perl script gc_skew.pl(BioPerl 필요)를 활용하면 된다.

$ gc_skew.pl genome.fa > gc.txt
$ gnuplot
gnuplot> plot "gc.txt" using 1:2 with lines (GC skew)
gnuplot> plot "gc.txt" using 1:3 with lines (cumulative GC skew)

Genome Informatics Laboratory at KRIBB

Table of Contents