User Tools

Site Tools


bioinfo:tormes_pipeline을_이용한_bacterial_wgs_analysis

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
bioinfo:tormes_pipeline을_이용한_bacterial_wgs_analysis [2025/07/29 08:00] hyjeongbioinfo:tormes_pipeline을_이용한_bacterial_wgs_analysis [2025/07/29 08:03] (current) hyjeong
Line 1: Line 1:
 ====== TORMES pipeline를 이용한 bacterial WGS analysis ====== ====== TORMES pipeline를 이용한 bacterial WGS analysis ======
 +
 +[[prokaryotic_genome_analysis_manual_2023|상위 페이지 - Prokaryotic genome analysis manual]]
 +
 일루미나 플랫폼에서 생산된 미생물의 whole genome sequencing(WGS) analysis를 편리하게 도와주는 파이프라인인 [[https://github.com/nmquijada/tormes|TORMES]]를 소개한다. TORMES는 일루미나 시퀀싱 자료를 메타데이터 파일과 함께 제공하면 read에 대한 QC, 조립, reference 서열에 대한 순서 결정, MLST, annotation, 항생제 내성 유전자 예측 등을 자동적으로 실시하며, -g/--genera 옵션으로 genus를 특정하면(Escherichia와 Salmonella만 가능) plasmid replicon screening과 serotyping 등 상세한 분석을 추가적으로 실시한다. 결과 보고서는 RMarkdown 코드 파일로 제공된다. 일루미나 플랫폼에서 생산된 미생물의 whole genome sequencing(WGS) analysis를 편리하게 도와주는 파이프라인인 [[https://github.com/nmquijada/tormes|TORMES]]를 소개한다. TORMES는 일루미나 시퀀싱 자료를 메타데이터 파일과 함께 제공하면 read에 대한 QC, 조립, reference 서열에 대한 순서 결정, MLST, annotation, 항생제 내성 유전자 예측 등을 자동적으로 실시하며, -g/--genera 옵션으로 genus를 특정하면(Escherichia와 Salmonella만 가능) plasmid replicon screening과 serotyping 등 상세한 분석을 추가적으로 실시한다. 결과 보고서는 RMarkdown 코드 파일로 제공된다.
  
Line 13: Line 16:
   $ tormes --metadata salmonella_metadata.txt --output Salmonella_TORMES_2018 --reference S_enterica-CT02021853.fasta --threads 32 --genera Salmonella   $ tormes --metadata salmonella_metadata.txt --output Salmonella_TORMES_2018 --reference S_enterica-CT02021853.fasta --threads 32 --genera Salmonella
      
-  TORMES에서 기본적으로 쓰이는 SPAdes assembler가 항상 좋은 결과를 만들어내지는 못한다. 따라서 CLC Genomics Workbench 등에서 조립한 뒤 average coverage가 미흡한 것을 제거하여 정리한 contig 서열 파일을 갖고 있다면, 파이프라인 내부 assembler를 건너뛰면서 외부 제공 assembly를 활용할 수 있는 수정된 스크립트인 tormes-hyjeong을 사용하면 된다. 사전에 준비된 contig 서열 파일(.fasta)은 genomes 디렉토리에 모은 뒤 ‘tormes-hyjeong --assembler external’ 명령으로 실행한다. 나머지 옵션은 위에서 설명한 방법을 그대로 따른다. 이 방법을 사용하면 NCBI에서 입수한 유전체 서열을 포함하여 분석하는 것도 가능하다. 단, fake read를 적절히 만들어서 다른 read와 함께 입력물로 넣어 주어야 한다.+TORMES에서 기본적으로 쓰이는 SPAdes assembler가 항상 좋은 결과를 만들어내지는 못한다. 따라서 CLC Genomics Workbench 등에서 조립한 뒤 average coverage가 미흡한 것을 제거하여 정리한 contig 서열 파일을 갖고 있다면, 파이프라인 내부 assembler를 건너뛰면서 외부 제공 assembly를 활용할 수 있는 수정된 스크립트인 tormes-hyjeong을 사용하면 된다. 사전에 준비된 contig 서열 파일(.fasta)은 genomes 디렉토리에 모은 뒤 ‘tormes-hyjeong --assembler external’ 명령으로 실행한다. 나머지 옵션은 위에서 설명한 방법을 그대로 따른다. 이 방법을 사용하면 NCBI에서 입수한 유전체 서열을 포함하여 분석하는 것도 가능하다. 단, fake read를 적절히 만들어서 다른 read와 함께 입력물로 넣어 주어야 한다.
      
 RMarkdown으로 작성된 리포트 파일은 Rscript 명령을 실행하여 html 포맷으로 전환할 수 있다. R은 tormes-1.0 환경에는 설치하지 않았으므로 base 환경 혹은 conda 외부에서 실시한다. RMarkdown으로 작성된 리포트 파일은 Rscript 명령을 실행하여 html 포맷으로 전환할 수 있다. R은 tormes-1.0 환경에는 설치하지 않았으므로 base 환경 혹은 conda 외부에서 실시한다.
Line 22: Line 25:
 동일 종에 속하지 않은 여러 균주의 Illumina sequencing 데이터를 점검하기 위하여 TORMES를 이용하는 것도 가능하다. 이 때에는 --no_pangenome과 --no_mlst을 주는 것이 상식적으로 옳다. TOMES 1.1부터는 raw data가 아니라 이미 조립된 contig 서열을 분석 대상에 포함시킬 수 있게 되었다. Contig 서열을 사용하려면 metadata file의 두 번째 컬럼(Read1)을 ‘GENOME’으로 표기하고 세 번째 컬럼(Read2)에 Directory/FASTA_file을 넣는다. 2020년 10월 공개된 TORMES 1.2부터는 KRAKEN2와 RDP Classifier를 채용하는 등 성능이 확장되었다. TORMES 1.3에서는 [[https://github.com/nmquijada/tormes#installation|설치 방법]]이 개선되었다. 동일 종에 속하지 않은 여러 균주의 Illumina sequencing 데이터를 점검하기 위하여 TORMES를 이용하는 것도 가능하다. 이 때에는 --no_pangenome과 --no_mlst을 주는 것이 상식적으로 옳다. TOMES 1.1부터는 raw data가 아니라 이미 조립된 contig 서열을 분석 대상에 포함시킬 수 있게 되었다. Contig 서열을 사용하려면 metadata file의 두 번째 컬럼(Read1)을 ‘GENOME’으로 표기하고 세 번째 컬럼(Read2)에 Directory/FASTA_file을 넣는다. 2020년 10월 공개된 TORMES 1.2부터는 KRAKEN2와 RDP Classifier를 채용하는 등 성능이 확장되었다. TORMES 1.3에서는 [[https://github.com/nmquijada/tormes#installation|설치 방법]]이 개선되었다.
  
 +2025년 11월 현재 TORMES v2로 major update를 준비 중이라고 한다.
bioinfo/tormes_pipeline을_이용한_bacterial_wgs_analysis.1753743642.txt.gz · Last modified: by hyjeong