all_about_illumina_sequence_assembly_for_microbial_genomes
Differences
This shows you the differences between two versions of the page.
all_about_illumina_sequence_assembly_for_microbial_genomes [2017/10/13 08:49] – [어댑터 제거, 트리밍 및 interleaved file로 전환] hyjeong | all_about_illumina_sequence_assembly_for_microbial_genomes [2021/03/17 13:09] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
====== All about Illumina sequence assembly for microbial genomes ====== | ====== All about Illumina sequence assembly for microbial genomes ====== | ||
- | gzip 압축이 된 **Illumina paired fastq file**(file_1.fastq.gz & file_2.fastq.gz)을 시작점으로 한다. 여기에서 다루는 방법은 어디까지나 나의 경험에 의한 제안일 뿐, 반드시 이를 지켜야 하는 것은 아니다. 생소한 이름의 shell script는 내가 직접 작성하거나, | + | 본 문서에서 소개한 사례에서는 |
+ | ===== 이제 3세대 시퀀싱 기법(3GS)의 시대 아닌가? ===== | ||
+ | 맞다! PacBio RSII이 de novo sequencing의 새로운 강자로 부상하고 있고, Oxford Nanopore Technologies의 nanopore sequencing도 점점 많은 사람들의 관심을 끌고 있다. 그럼에도 불구하고 일루미나 시퀀싱 데이터를 이용한 분석 작업을 비용 대비 throughput이 가장 높은 방법으로서 여전히 중요하다고 생각한다. 본인 역시 3GS를 활발하게 사용하고 있으며, 이를 활용하기 위한 소프트웨어를 익힌는 데에도 열심이다. | ||
===== 일반적인 주의사항 ===== | ===== 일반적인 주의사항 ===== | ||
==== Read length ==== | ==== Read length ==== | ||
Line 29: | Line 31: | ||
$ sh file_1.sh | $ sh file_1.sh | ||
$ sh file_2.sh | $ sh file_2.sh | ||
- | | + | 2020년 5월 현재에는 이렇게 무식한(? |
+ | $ ls *fastq | while read f | ||
+ | > do | ||
+ | > cut -d_ -f1,3 $(<<< | ||
+ | > done | ||
===== FastQC를 이용한 기본적인 QC ===== | ===== FastQC를 이용한 기본적인 QC ===== | ||
- | 하나의 입력 파일 file_1.fastq(.gz)에 대해서 file_1_fastq.html 및 file_1_fastq.zip이 생성된다. | + | 여기서 QC라 함은 원본 시퀀싱 데이터 파일(fastq)에 변화를 가하지 않고 단지 quality에 대한 평가를 하는 일을 뜻힌다. 따라서 수치와 도표로 표현되는 보고서가 주된 결과물이다. 매우 널리 쓰이는 QC 도구인 [[https:// |
$ / | $ / | ||
===== 어댑터 제거, 트리밍 및 interleaved file로 전환 ===== | ===== 어댑터 제거, 트리밍 및 interleaved file로 전환 ===== | ||
==== 개요 ==== | ==== 개요 ==== | ||
+ | Illumina sequencing read의 주요 용도라면 de novo assembly나 reference mapping이 가장 대표적일 것이다. Metagenomics 혹은 epigenomics를 주업으로 삼는 연구자라면 다른 의견을 가질 수도 있겠으나, | ||
+ | * Adapter sequence 제거 | ||
+ | * Low quality 영역 제거 | ||
+ | * low abundant k-mer를 갖는 read의 제거 | ||
+ | * Error 교정(바로 위의 것과 겹치기도 한다) | ||
+ | * 포맷의 전환 | ||
+ | 후속 프로그램에 따라서는 적극적인 전처리(low quality region의 trimming)이 결과에 좋은 영향을 미치는 것도 있고 그렇지 않은 것도 있다. 따라서 위에서 나열한 작업을 다 해야 한다거나, | ||
- | [[http:// | + | Sequencing reads(fastq file)의 전처리기는 위에서 나열한 작업 종류만큼 다양한 것들이 존재한다. 어떤 것은 QC plot의 생성을 겸하는 것도 있고(Prinseq), |
+ | |||
+ | 이 페이지에서 중점적으로 다루는 전처리 기법에서는 | ||
$ myIllu_01_trimPE.sh file_1.fastq.gz file_2.fastq.gz # file-trim.pe.fq 생성 | $ myIllu_01_trimPE.sh file_1.fastq.gz file_2.fastq.gz # file-trim.pe.fq 생성 | ||
| | ||
Line 66: | Line 81: | ||
$ / | $ / | ||
==== ABySS ==== | ==== ABySS ==== | ||
+ | * [웹사이트] http:// | ||
==== SPAdes ==== | ==== SPAdes ==== | ||
* [웹사이트] http:// | * [웹사이트] http:// | ||
Line 75: | Line 90: | ||
$ / | $ / | ||
- | * Unordered List Item오류 교정을 이미 한 read를 사용하려면 --only-assembler 옵션을 추가한다. | + | * output_dir/ |
+ | * 오류 교정을 이미 한 read를 사용하려면 --only-assembler 옵션을 추가한다. | ||
* plasmid 서열만을 조립하려면 --plasmid 옵션을 추가한다(plasmidSPAdes: | * plasmid 서열만을 조립하려면 --plasmid 옵션을 추가한다(plasmidSPAdes: | ||
* (구식 포맷) --12 interleavedFile or --1 forwardReadFile --2 reverseReadFile and/or --s unpairedReadFile | * (구식 포맷) --12 interleavedFile or --1 forwardReadFile --2 reverseReadFile and/or --s unpairedReadFile | ||
Line 91: | Line 107: | ||
$ / | $ / | ||
=== 2. Mixed mode === | === 2. Mixed mode === | ||
- | 교정을 마친 read file을 a5-out.ec.fastq로 명명해 둔다. 원본 파일(file.pe.fq)과 이름을 맞추지 않아도 된다. mixed mode에서 인수로 주어지는 file.pe.fq(염기 교정 전)은 실제로는 scaffolding에만 쓰인다. 따라서 a5-out.ec.fastq를 인수로 주어도 상관이 없을 것이다. | + | 교정을 마친 read file을 a5-out.**ec.fastq**로 명명해 둔다. 원본 파일(file.pe.fq)과 이름을 맞추지 않아도 된다. mixed mode에서 인수로 주어지는 file.pe.fq(염기 교정 전)은 실제로는 scaffolding에만 쓰인다. 따라서 a5-out.ec.fastq를 인수로 주어도 상관이 없을 것이다. |
$ / | $ / | ||
all_about_illumina_sequence_assembly_for_microbial_genomes.1507852165.txt.gz · Last modified: (external edit)