all_about_illumina_sequence_assembly_for_microbial_genomes
Differences
This shows you the differences between two versions of the page.
all_about_illumina_sequence_assembly_for_microbial_genomes [2017/10/13 16:48] – [개요] hyjeong | all_about_illumina_sequence_assembly_for_microbial_genomes [2021/03/17 13:09] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
====== All about Illumina sequence assembly for microbial genomes ====== | ====== All about Illumina sequence assembly for microbial genomes ====== | ||
- | gzip 압축이 된 **Illumina paired fastq file**(file_1.fastq.gz & file_2.fastq.gz)을 시작점으로 한다. 여기에서 다루는 방법은 어디까지나 나의 경험에 의한 제안일 뿐, 반드시 이를 지켜야 하는 것은 아니다. 생소한 이름의 shell script는 내가 직접 작성하거나, | + | 본 문서에서 소개한 사례에서는 |
+ | ===== 이제 3세대 시퀀싱 기법(3GS)의 시대 아닌가? ===== | ||
+ | 맞다! PacBio RSII이 de novo sequencing의 새로운 강자로 부상하고 있고, Oxford Nanopore Technologies의 nanopore sequencing도 점점 많은 사람들의 관심을 끌고 있다. 그럼에도 불구하고 일루미나 시퀀싱 데이터를 이용한 분석 작업을 비용 대비 throughput이 가장 높은 방법으로서 여전히 중요하다고 생각한다. 본인 역시 3GS를 활발하게 사용하고 있으며, 이를 활용하기 위한 소프트웨어를 익힌는 데에도 열심이다. | ||
===== 일반적인 주의사항 ===== | ===== 일반적인 주의사항 ===== | ||
==== Read length ==== | ==== Read length ==== | ||
Line 29: | Line 31: | ||
$ sh file_1.sh | $ sh file_1.sh | ||
$ sh file_2.sh | $ sh file_2.sh | ||
- | | + | 2020년 5월 현재에는 이렇게 무식한(? |
+ | $ ls *fastq | while read f | ||
+ | > do | ||
+ | > cut -d_ -f1,3 $(<<< | ||
+ | > done | ||
===== FastQC를 이용한 기본적인 QC ===== | ===== FastQC를 이용한 기본적인 QC ===== | ||
여기서 QC라 함은 원본 시퀀싱 데이터 파일(fastq)에 변화를 가하지 않고 단지 quality에 대한 평가를 하는 일을 뜻힌다. 따라서 수치와 도표로 표현되는 보고서가 주된 결과물이다. 매우 널리 쓰이는 QC 도구인 [[https:// | 여기서 QC라 함은 원본 시퀀싱 데이터 파일(fastq)에 변화를 가하지 않고 단지 quality에 대한 평가를 하는 일을 뜻힌다. 따라서 수치와 도표로 표현되는 보고서가 주된 결과물이다. 매우 널리 쓰이는 QC 도구인 [[https:// | ||
Line 46: | Line 52: | ||
Sequencing reads(fastq file)의 전처리기는 위에서 나열한 작업 종류만큼 다양한 것들이 존재한다. 어떤 것은 QC plot의 생성을 겸하는 것도 있고(Prinseq), | Sequencing reads(fastq file)의 전처리기는 위에서 나열한 작업 종류만큼 다양한 것들이 존재한다. 어떤 것은 QC plot의 생성을 겸하는 것도 있고(Prinseq), | ||
- | [[http:// | + | 이 페이지에서 중점적으로 다루는 전처리 기법에서는 |
$ myIllu_01_trimPE.sh file_1.fastq.gz file_2.fastq.gz # file-trim.pe.fq 생성 | $ myIllu_01_trimPE.sh file_1.fastq.gz file_2.fastq.gz # file-trim.pe.fq 생성 | ||
| | ||
Line 101: | Line 107: | ||
$ / | $ / | ||
=== 2. Mixed mode === | === 2. Mixed mode === | ||
- | 교정을 마친 read file을 a5-out.ec.fastq로 명명해 둔다. 원본 파일(file.pe.fq)과 이름을 맞추지 않아도 된다. mixed mode에서 인수로 주어지는 file.pe.fq(염기 교정 전)은 실제로는 scaffolding에만 쓰인다. 따라서 a5-out.ec.fastq를 인수로 주어도 상관이 없을 것이다. | + | 교정을 마친 read file을 a5-out.**ec.fastq**로 명명해 둔다. 원본 파일(file.pe.fq)과 이름을 맞추지 않아도 된다. mixed mode에서 인수로 주어지는 file.pe.fq(염기 교정 전)은 실제로는 scaffolding에만 쓰인다. 따라서 a5-out.ec.fastq를 인수로 주어도 상관이 없을 것이다. |
$ / | $ / | ||
all_about_illumina_sequence_assembly_for_microbial_genomes.1507880938.txt.gz · Last modified: (external edit)