bioinfo:일루미나_데이터의_qc와_기본_전처리
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
bioinfo:일루미나_데이터의_qc와_기본_전처리 [2023/06/21 13:26] – hyjeong | bioinfo:일루미나_데이터의_qc와_기본_전처리 [2025/01/03 13:53] (current) – [SSU rRNA 서열의 재구성] hyjeong | ||
---|---|---|---|
Line 2: | Line 2: | ||
Genome sequencing의 기본 목표는 (1) de novo assembly를 통한 새로운 유전체 서열의 구성, 또는 (2) re-sequencing을 통한 변이의 예측이다. Reference genome sequence가 필요한 것은 후자의 경우이다. 무엇을 목표로 하든 일루미나 장비에서 생산된 시퀀싱 raw data를 평가(데이터 자체를 변경하지 않는 탐색적 분석)하고 필요하다면 trimming 등의 적극적인 조작을 해야 한다. | Genome sequencing의 기본 목표는 (1) de novo assembly를 통한 새로운 유전체 서열의 구성, 또는 (2) re-sequencing을 통한 변이의 예측이다. Reference genome sequence가 필요한 것은 후자의 경우이다. 무엇을 목표로 하든 일루미나 장비에서 생산된 시퀀싱 raw data를 평가(데이터 자체를 변경하지 않는 탐색적 분석)하고 필요하다면 trimming 등의 적극적인 조작을 해야 한다. | ||
- | ====== Sequence QC ====== | + | ===== Sequence QC ===== |
가장 대중적인 QC 프로그램은 [[https:// | 가장 대중적인 QC 프로그램은 [[https:// | ||
- | ====== 일반적인 서열 데이터 조작 | + | ===== 일반적인 서열 데이터 조작 ===== |
- | ===== EMBOSS ===== | ||
[[https:// | [[https:// | ||
Line 21: | Line 20: | ||
$ seqret all.fasta: | $ seqret all.fasta: | ||
- | ===== BBTool ===== | ||
[[https:// | [[https:// | ||
- | ==== SSU rRNA 서열의 재구성 ===== | + | [[https:// |
+ | $ seqtk sample –s100 read_1.fq 10000 > sub_1.fq | ||
+ | $ seqtk sample –s100 read_2.fq 10000 > sub_2.fq | ||
+ | |||
+ | 일루미나 데이터를 위한 QC 및 전처리 도구로서 [[https:// | ||
+ | |||
+ | $ sga preprocess --pe-mode 1 reads_R1.fastq reads_R2.fastq > mygenome.fastq | ||
+ | $ sga index -a ropebwt --no-reverse -t 8 mygenome.fastq | ||
+ | $ sga preqc -t 8 mygenome.fastq > mygenome.preqc | ||
+ | $ sga-preqc-report.py mygenome.preqc sga/ | ||
+ | | ||
+ | [[https:// | ||
+ | |||
+ | # OUTPUT_PREFIX를 지정하지 않으면 ' | ||
+ | $ kat hist –t 8 –o OUTPUT_PREFIX reads_R1.fastq reads_R2.fastq | ||
+ | $ kat gcp -t 8 reads_R1.fastq reads_R2.fastq | ||
+ | $ kat comp ' | ||
+ | | ||
+ | [[https:// | ||
+ | |||
+ | $ fastq-stats FILE.fastq # 표준 출력으로 sequence statistics 수치를 출력함 | ||
+ | |||
+ | ===== SSU rRNA(16S rRNA) 서열의 재구성 ====== | ||
+ | [[https:// | ||
+ | |||
+ | $ phyloFlash.pl -lib LIB -read1 reads_F.fq.gz -read2 reads_R.fq.gz -CPUs 16 | ||
+ | $ phyloFlash.pl -lib LIB -CPUs 16 -read1 reads_FR.fq.gz # interleaved file | ||
bioinfo/일루미나_데이터의_qc와_기본_전처리.1687321609.txt.gz · Last modified: 2023/06/21 13:26 by hyjeong