User Tools

Site Tools


bioinfo:일루미나_데이터의_qc와_기본_전처리

This is an old revision of the document!


일루미나 데이터의 QC와 기본 전처리

Genome sequencing의 기본 목표는 (1) de novo assembly를 통한 새로운 유전체 서열의 구성, 또는 (2) re-sequencing을 통한 변이의 예측이다. Reference genome sequence가 필요한 것은 후자의 경우이다. 무엇을 목표로 하든 일루미나 장비에서 생산된 시퀀싱 raw data를 평가(데이터 자체를 변경하지 않는 탐색적 분석)하고 필요하다면 trimming 등의 적극적인 조작을 해야 한다.

Sequence QC

가장 대중적인 QC 프로그램은 FastQC이다. 이 프로그램은 read data에 대하여 아무런 조작을 가하지 않고 QC 관련 plot만 생성한다. 명령행 혹은 GUI 모드로 전부 실행 가능하다. 단순히 read의 수, 평균 길이, 총 염기수 등을 집계하려면 khmer 패키지의 readstats.py를 사용하면 된다. 어댑터 제거 및 quality trimming을 실시하려면 trimmomatic을 사용한다.

일반적인 서열 데이터 조작

EMBOSS

EMBOSS package에는 다수의 기본적인 생명정보학 분석 프로그램이 포함되어 있다. wossname <keyword>를 입력하면 short description에 keyword가 포함된 개별 프로그램의 목록이 나온다. tfm <program>을 입력하면 각 프로그램에 대한 상세한 매뉴얼이 출력된다. 서열 파일의 입력과 출력 및 포맷 변환 등을 수행하는 seqret에 대해서 알아보자.

# Multiple fasta file을 개별 서열 파일로 분리
# -auto 옵션은 입력하지 않은 값에 대한 프롬프트가 나오지 않게 함
$ seqret -ossinlge -auto contigs.fasta
# 여러 서열로 구성된 GenBank를 개별 파일로 분리하되 feature를 전달
$ seqret –feature –ossingle –os format genbank –auto INPUT.gbk
# 주어진 단일서열 파일의 5 염기와 끝에서 5번째 염기까지를 추출하여 reverse complementary 형태로 전환한 뒤 별도의 파일로 저장
$ seqret –sbegin 5 –send -5 –sreverse INFILE.fasta OUTFILE.fasta
# 다중서열 파일에서 특정 ID의 서열을 별도의 파일로 추출
$ seqret all.fasta:seq_id -auto

BBTool

BBTool은 DNA 및 RNA 서열을 위한 다양하고 방대한 분석 도구의 모음이다. 예를 들어 reformat.sh는 read length 분포의 히스토그램을 계산하고, stats.sh는 assembly statistics를 산출한다. BBTool 패키지에 포함된 bbnorm.sh는 k-mer 기반의 normalization을 수행하는 용도로 만들어진 것인데, 오류 교정이나 k-mer frequency plot을 그리는 데에도 쓸 수 있다. 자세한 설명은 SEQanswers의 Introducing BBNorm, a read normalization and error-correction tool을 참조하기 바란다.

SSU rRNA 서열의 재구성

bioinfo/일루미나_데이터의_qc와_기본_전처리.1687321609.txt.gz · Last modified: 2023/06/21 13:26 by hyjeong