post-processing_of_pacbio_assemblies_using_circlator
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
post-processing_of_pacbio_assemblies_using_circlator [2018/01/25 14:43] – [활용 방법] hyjeong | post-processing_of_pacbio_assemblies_using_circlator [2021/03/17 13:09] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
====== Post-processing of PacBio assemblies using Circlator ====== | ====== Post-processing of PacBio assemblies using Circlator ====== | ||
- | ===== 개요 ===== | + | ===== Residual error correction (preprocess) ===== |
+ | SMRT analysis의 HGAP(RS_HGAP_assembly.2 or 3)에서는 1번의 resequencing을 실행하지만 error가 남아있는 경우가 많다. 이것을 그대로 GenBank에 제출하면 pseudogene이 많다는 이유로 반송되기도 한다. 보통 전체 유전자의 10% 이상인 경우 문제가 있다고 제출자에게 되돌려 보내는 것으로 생각된다. 이런 일이 항상 벌어지는 것은 아니지만, | ||
+ | |||
+ | 일루미나 read가 있다면 적당한 도구를 이용하여 매핑한 뒤 consensus를 추출하거나, | ||
+ | |||
+ | ==== HGAP 후 Resequencing의 2회 반복 시행 요령 ==== | ||
+ | HGAP이 끝난 뒤 DATA-> | ||
+ | (수정 전)_das_smrtanalysis_userdata_jobs_016_016491_data_polished_assembly.fasta.gz | ||
+ | (압축 해제 후 수정) jobs_016_016491_data_polished_assembly.fasta | ||
+ | 이를 Reference sequence로 등록한다(" | ||
+ | (수정 전) _das_smrtanalysis_userdata_jobs_016_016493_data_consensus.fasta.gz | ||
+ | (압축 해제 후 수정) jobs_016_016493_data_consensus.fasta | ||
+ | 다시 이를 Reference sequence로 등록한다. Name은 " | ||
+ | ^ Step ^ input | Output | ||
+ | | 1 (HGAP) | ||
+ | | 2 (Resequencing) | ||
+ | | 3 (Resequencing) | ||
+ | |||
+ | 각 서열의 ID는 다음과 같이 변한다. (3)을 취하여 최종 서열로 사용하면 된다. | ||
+ | (1) scf7180000000030|quiver | ||
+ | (2) scf7180000000030|quiver|quiver | ||
+ | (3) scf7180000000030|quiver|quiver|quiver | ||
+ | |||
+ | ==== Pilon ==== | ||
+ | $ midir bowtie2 | ||
+ | $ bowtie2-build REFERENCE.fasta bowtie2/ | ||
+ | $ bowtie2 -p 24 -x bowtie2/ | ||
+ | $ samtools view -b -S -o mapping.bam mapping.sam | ||
+ | $ samtools sort [ -T / | ||
+ | $ samtools index mapping.sorted.bam | ||
+ | $ pilon --genome 06.fixstart.fasta --frags mapping.sorted.bam | ||
+ | ===== Circlator | ||
PacBio long read를 이용하여 염색체 수준의 조립물을 얻는 것은 이제 아주 일상적인 일이 되었다. 세균의 염색체는 원형이므로, | PacBio long read를 이용하여 염색체 수준의 조립물을 얻는 것은 이제 아주 일상적인 일이 되었다. 세균의 염색체는 원형이므로, | ||
Line 19: | Line 50: | ||
* (인내심이 부족한 사람들을 위해) https:// | * (인내심이 부족한 사람들을 위해) https:// | ||
- | 입력물은 contig sequence file과 corrected reads(fasta or fastq)이며, | + | 입력물은 contig sequence file과 corrected reads(fasta or fastq)이며, |
(필요한 경우) $ pyenv global 3.5.1 | (필요한 경우) $ pyenv global 3.5.1 | ||
$ PATH=/ | $ PATH=/ | ||
$ circlator progcheck (optional) | $ circlator progcheck (optional) | ||
- | $ circlator all [options] < | + | $ circlator all [options] < |
+ | |||
+ | ===== 교정과 circlator, 어느 것을 먼저 할까? ===== | ||
post-processing_of_pacbio_assemblies_using_circlator.1516859008.txt.gz · Last modified: (external edit)