User Tools

Site Tools


bioinfo:일루미나_데이터의_qc와_기본_전처리

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
bioinfo:일루미나_데이터의_qc와_기본_전처리 [2023/06/21 13:34] hyjeongbioinfo:일루미나_데이터의_qc와_기본_전처리 [2025/01/03 13:53] (current) – [SSU rRNA 서열의 재구성] hyjeong
Line 36: Line 36:
 [[https://github.com/TGAC/KAT|KAT]]는 k-mer 분석을 통해서 NGS 데이터셋과 유전체 조립물에 대한 QC를 실시하는 도구이다. 그래픽을 수록한 보고자료 생성, 여러 데이터셋에 대한 k-mer count 비교, 필터링 등이 한번에 실시되므로 매우 편리하다. K-mer 길이를 –m <num>으로 지정하지 않으면 27을 기본 수치로 사용한다. Kat hist는 jellyfish와 유사한 k-mer 분포 히스토그램을, kat gcp는 각 k-mer에 대하여 GC count를 계산한 매트릭스를 작성한다. 두 명령어 모두 png 파일 형태의 diagnostic plot을 출력한다. [[https://github.com/TGAC/KAT|KAT]]는 k-mer 분석을 통해서 NGS 데이터셋과 유전체 조립물에 대한 QC를 실시하는 도구이다. 그래픽을 수록한 보고자료 생성, 여러 데이터셋에 대한 k-mer count 비교, 필터링 등이 한번에 실시되므로 매우 편리하다. K-mer 길이를 –m <num>으로 지정하지 않으면 27을 기본 수치로 사용한다. Kat hist는 jellyfish와 유사한 k-mer 분포 히스토그램을, kat gcp는 각 k-mer에 대하여 GC count를 계산한 매트릭스를 작성한다. 두 명령어 모두 png 파일 형태의 diagnostic plot을 출력한다.
  
-  # OUTPUT_PREFIX를 지정하지 않으면 kat.command가 사용됨+  # OUTPUT_PREFIX를 지정하지 않으면 'kat.command'가 사용됨
   $ kat hist –t 8 –o OUTPUT_PREFIX reads_R1.fastq reads_R2.fastq   $ kat hist –t 8 –o OUTPUT_PREFIX reads_R1.fastq reads_R2.fastq
   $ kat gcp -t 8 reads_R1.fastq reads_R2.fastq   $ kat gcp -t 8 reads_R1.fastq reads_R2.fastq
-  $ kat comp reads_R1.fastq reads_R2.fastq’ assembly.fa+  $ kat comp 'reads_R1.fastq reads_R2.fastqassembly.fa
      
 [[https://expressionanalysis.github.io/ea-utils/|ea-utils]]는 fastq 파일로부터 barcode demultiplexing, paired end joining, adapter trimming 등을 수행하는 유틸리티 모음이다. 앞에서 설명한 여러 종류의 분석 또는 조작을 수행하는 프로그램들이 한 패키지 안에 포함되어 있으므로 적극 활용을 권장한다. [[https://expressionanalysis.github.io/ea-utils/|ea-utils]]는 fastq 파일로부터 barcode demultiplexing, paired end joining, adapter trimming 등을 수행하는 유틸리티 모음이다. 앞에서 설명한 여러 종류의 분석 또는 조작을 수행하는 프로그램들이 한 패키지 안에 포함되어 있으므로 적극 활용을 권장한다.
Line 45: Line 45:
   $ fastq-stats FILE.fastq # 표준 출력으로 sequence statistics 수치를 출력함   $ fastq-stats FILE.fastq # 표준 출력으로 sequence statistics 수치를 출력함
  
-===== SSU rRNA 서열의 재구성 ======+===== SSU rRNA(16S rRNA) 서열의 재구성 ======
 [[https://github.com/HRGV/phyloFlash|phyloFlash]]는 일루미나 데이터셋으로부터 SSU rRNA 서열을 재구성하여 동정하는 도구이다. Silva reference database에 대한 read mapping을 하여 해당되는 read를 회수한 뒤 targeted assembly를 거쳐 전장 SSU rRNA 서열을 만들어낸다. 원래는 메타게놈 혹은 메타트랜스크립톰 read의 분석을 위해 만들어진 것이지만 단일 유전체의 시퀀싱 read에 이를 적용하면 시퀀싱 라이브러리의 오염 여부를 점검할 수도 있다. 결과물은 단순 텍스트 및 HTML 형식의 리포트로 제공된다. 아래에 보인 실행 사례에서 모든 결과 파일은 LIB이라는 접두사를 갖는다. [[https://github.com/HRGV/phyloFlash|phyloFlash]]는 일루미나 데이터셋으로부터 SSU rRNA 서열을 재구성하여 동정하는 도구이다. Silva reference database에 대한 read mapping을 하여 해당되는 read를 회수한 뒤 targeted assembly를 거쳐 전장 SSU rRNA 서열을 만들어낸다. 원래는 메타게놈 혹은 메타트랜스크립톰 read의 분석을 위해 만들어진 것이지만 단일 유전체의 시퀀싱 read에 이를 적용하면 시퀀싱 라이브러리의 오염 여부를 점검할 수도 있다. 결과물은 단순 텍스트 및 HTML 형식의 리포트로 제공된다. 아래에 보인 실행 사례에서 모든 결과 파일은 LIB이라는 접두사를 갖는다.
 +
 +  $ phyloFlash.pl -lib LIB -read1 reads_F.fq.gz -read2 reads_R.fq.gz -CPUs 16
 +  $ phyloFlash.pl -lib LIB -CPUs 16 -read1 reads_FR.fq.gz # interleaved file
  
  
bioinfo/일루미나_데이터의_qc와_기본_전처리.1687322068.txt.gz · Last modified: 2023/06/21 13:34 by hyjeong