User Tools

Site Tools


post-processing_of_pacbio_assemblies_using_circlator

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
post-processing_of_pacbio_assemblies_using_circlator [2018/03/12 13:53] – [HGAP 후 Resequencing의 2회 반복 시행 요령] hyjeongpost-processing_of_pacbio_assemblies_using_circlator [2021/03/17 13:09] (current) – external edit 127.0.0.1
Line 13: Line 13:
   (압축 해제 후 수정) jobs_016_016493_data_consensus.fasta   (압축 해제 후 수정) jobs_016_016493_data_consensus.fasta
 다시 이를 Reference sequence로 등록한다. Name은 "균주명 consensus_01"로 한다. Job ID의 맨 끝자리 숫자가 1->3->5로 증가하고 있다. 다시 이를 Reference sequence로 등록한다. Name은 "균주명 consensus_01"로 한다. Job ID의 맨 끝자리 숫자가 1->3->5로 증가하고 있다.
-^ Step              ^ input                                | Outout                                                |+^ Step              ^ input                                | Output                                                |
 | 1 (HGAP)          | SMRT cell                            | ..._jobs_016_016491_data_polished_assembly.fasta (1)  | | 1 (HGAP)          | SMRT cell                            | ..._jobs_016_016491_data_polished_assembly.fasta (1)  |
 | 2 (Resequencing)  | SMRT cell + 1 (sample polished_01)   | ..._jobs_016_016493_data_consensus.fasta (2)          | | 2 (Resequencing)  | SMRT cell + 1 (sample polished_01)   | ..._jobs_016_016493_data_consensus.fasta (2)          |
 | 3 (Resequencing)  | SMRT cell + 2 (sample consensus_01)  | ..._jobs_016_016495_data_consensus.fasta (3)          | | 3 (Resequencing)  | SMRT cell + 2 (sample consensus_01)  | ..._jobs_016_016495_data_consensus.fasta (3)          |
  
-각 서열의 ID는 다음과 같이 변한다.+각 서열의 ID는 다음과 같이 변한다. (3)을 취하여 최종 서열로 사용하면 된다. 
   (1) scf7180000000030|quiver   (1) scf7180000000030|quiver
   (2) scf7180000000030|quiver|quiver   (2) scf7180000000030|quiver|quiver
   (3) scf7180000000030|quiver|quiver|quiver   (3) scf7180000000030|quiver|quiver|quiver
 +  
 +==== Pilon ====
 +  $ midir bowtie2
 +  $ bowtie2-build REFERENCE.fasta bowtie2/refernece
 +  $ bowtie2 -p 24 -x bowtie2/reference -1 ../SRR5032362_1.fastq -2 ../SRR5032362_2.fastq -S mapping.sam
 +  $ samtools view -b -S -o mapping.bam mapping.sam
 +  $ samtools sort [ -T /tmp/aln.sorted ] -o mapping.sorted.bam mapping.bam
 +  $ samtools index mapping.sorted.bam
 +  $ pilon --genome 06.fixstart.fasta --frags mapping.sorted.bam
 ===== Circlator 개요 ===== ===== Circlator 개요 =====
 PacBio long read를 이용하여 염색체 수준의 조립물을 얻는 것은 이제 아주 일상적인 일이 되었다. 세균의 염색체는 원형이므로, 가장 이상적인 경우에는 양 말단에 서로 겹치는 염기서열이 출현하는 linear contig를 얻게 된다. 이를 조정하여 중복을 제거하고, 복제 원점(보통 dnaA를 첫번째 유전자로 삼음)을 기준으로 서열을 조절하는 일이 과제로 남는다(참조: [[http://genoglobe.kr/kribb/%EB%8B%A8%EC%9D%BC_contig_%EC%84%9C%EC%97%B4%EC%9D%98_%ED%9B%84%EC%B2%98%EB%A6%AC|단일 contig 서열의 후처리]]) PacBio long read를 이용하여 염색체 수준의 조립물을 얻는 것은 이제 아주 일상적인 일이 되었다. 세균의 염색체는 원형이므로, 가장 이상적인 경우에는 양 말단에 서로 겹치는 염기서열이 출현하는 linear contig를 얻게 된다. 이를 조정하여 중복을 제거하고, 복제 원점(보통 dnaA를 첫번째 유전자로 삼음)을 기준으로 서열을 조절하는 일이 과제로 남는다(참조: [[http://genoglobe.kr/kribb/%EB%8B%A8%EC%9D%BC_contig_%EC%84%9C%EC%97%B4%EC%9D%98_%ED%9B%84%EC%B2%98%EB%A6%AC|단일 contig 서열의 후처리]])
Line 41: Line 50:
   * (인내심이 부족한 사람들을 위해) https://github.com/sanger-pathogens/circlator/wiki/Brief-instructions   * (인내심이 부족한 사람들을 위해) https://github.com/sanger-pathogens/circlator/wiki/Brief-instructions
  
-입력물은 contig sequence file과 corrected reads(fasta or fastq)이며, 기본 동작은 **all** task이다. 이를 실행하면 progcheck, mapreads, bam2reads, assemble, mergem clean 및 fixstart가 단계적으로 이루어진다. 기본 사용법은 다음과 같다. 첫줄의 $PATH 환경변수 설정은 각 상황에 맞게 알아서 실행하라.+입력물은 contig sequence file과 corrected reads(fasta or fastq)이며, 기본 동작은 **all** task이다. 이를 실행하면 progcheck, mapreads, bam2reads, assemble, mergem clean 및 fixstart가 단계적으로 이루어진다. 기본 사용법은 다음과 같다. 첫줄의 $PATH 환경변수 설정은 각 상황에 맞게 알아서 실행하라. 예를 들어서 bioconda 환경에 circlator를 설치하여 사용할 수도 있는 것이다.
  
   (필요한 경우) $ pyenv global 3.5.1   (필요한 경우) $ pyenv global 3.5.1
   $ PATH=/usr/local/apps/canu/Linux-amd64/bin:/usr/local/apps/SPAdes-3.7.1-Linux/bin:$PATH   $ PATH=/usr/local/apps/canu/Linux-amd64/bin:/usr/local/apps/SPAdes-3.7.1-Linux/bin:$PATH
   $ circlator progcheck (optional)   $ circlator progcheck (optional)
-  $ circlator all [options] <assembly.fasta> <reads.fasta> <output directory>+  $ circlator all [options] <assembly.fasta> <corrected_reads.fasta> <output directory> 
 +   
 +===== 교정과 circlator, 어느 것을 먼저 할까? =====
  
  
post-processing_of_pacbio_assemblies_using_circlator.1520830397.txt.gz · Last modified: 2021/03/17 13:09 (external edit)