단일_contig_서열의_후처리
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
단일_contig_서열의_후처리 [2016/02/18 09:15] – [GC skew 그리기] hyjeong | 단일_contig_서열의_후처리 [2022/06/27 12:39] (current) – [서열의 전환과 일반적인 편집] hyjeong | ||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ====== 단일 contig 서열의 후처리 ====== | ||
+ | ===== 개요 ===== | ||
+ | Sanger sequencing 방법이 주류를 이루던 과거에는 복잡한 finishing 과정을 거쳐서 실제 염색체에 해당하는 단일 염기서열을 최종적으로 만들어내야 했지만 요즘은 PacBio sequencing을 통해서 단번에 단일 contig 서열을 얻게 되었다. 세균의 유전체는 원칙적으로 원형 구조를 이루고 있으므로, | ||
+ | {{ : | ||
+ | ==== 서열 말단의 overlap 검출 ==== | ||
+ | Contig 서열의 앞부분 20 kb 정도를 끊어내어 이를 query로 사용, 서열의 전체에 대해서 blastn으로 검색을 한다. 서열의 끝부분에 같은 방향으로 match가 발견되면 circular conformation을 이루는 것으로 추정할 수 있다. 그러나 단순한 repeat이 발생한 것이 아닌지 의심해 보아야 한다. 서열의 시작과 끝부분은 일반적으로 quality가 좋지 않으므로 100% identical한 alignment를 하지 못할 수도 있으니 유의해야 한다. | ||
+ | ==== 서열의 전환과 일반적인 편집 ==== | ||
+ | [[http:// | ||
+ | === EMBOSS 패키지 내의 프로그램 사용법 확인 === | ||
+ | $ wossname < | ||
+ | $ tfm < | ||
+ | | ||
+ | === seqret 기본 사용법 === | ||
+ | 단일 서열을 수록한 fasta file에 대한 조작 방법을 소개한다. | ||
+ | $ seqret -sbegin 1 -send 10000 -sequence large_sequence.fa -outseq extracted_sequence.fa | ||
+ | $ seqret -sbegin 1 -send 10000 large_sequence.fa extracted_sequence.fa (간단한 사용법) | ||
+ | $ seqret -sbegin 1 -send 10000 -sreverse large_sequence.fa extracted_sequence_revcom.fa | ||
+ | $ seqret GenBank_In.gbk Fasta_out.fa (포맷 전환; 기본 출력은 fasta) | ||
+ | $ seqret -feature GenBank_In.gbk embl: | ||
+ | | ||
+ | - Multi-fasta file인 contigs.fa에서 특정 서열(contig_1)만을 출력하려면 " | ||
+ | - Subsequence를 취하지 않고 전체를 reverse complementary sequence로 전환하려면 revseq를 사용한다. | ||
+ | ==== Overlap 탐색의 실제 ==== | ||
+ | 다음은 NCBI blast+를 사용한 사례이다. [[http:// | ||
+ | $ seqret -sbegin 1 -send 20000 SB_HGAP_old.fa: | ||
+ | $ makeblastdb -in SB_HGAP_old.fa -dbtype nucl | ||
+ | $ blastn -db SB_HGAP_old.fa -query query.fa –out blast.out | ||
+ | |||
+ | ==== GC skew 그리기 ==== | ||
+ | 직접적인 GC skew보다는 cumulative GC skew가 //oriC//를 파악하기에 더 좋다. 온라인 툴인 [[http:// | ||
+ | $ gc_skew.pl genome.fa > gc.txt | ||
+ | $ gnuplot | ||
+ | gnuplot> plot " | ||
+ | gnuplot> plot " | ||
+ | {{ : |