User Tools

Site Tools


bioinfo:유전체_주석화_genome_annotation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
bioinfo:유전체_주석화_genome_annotation [2023/06/29 11:19] – [ResFinder 사용하기] hyjeongbioinfo:유전체_주석화_genome_annotation [2024/08/05 15:12] (current) – [PGAP 사용하기] hyjeong
Line 10: Line 10:
  
 ===== PGAP 사용하기 ===== ===== PGAP 사용하기 =====
-Prokaryotic Genome Annotation System(PGAP, [[https://www.ncbi.nlm.nih.gov/genome/annotation_prok/|NCBI]] or [[https://github.com/ncbi/pgap|GitHub]])은 세균 유전체의 자동 주석화를 위하여 NCBI에서 공식적으로 사용하는 프로그램이다. 여러 개 유전체 서열에 대하여 신속하게 주석화를 하려면 Prokka가 매우 편리하지만, 대용량의 DB를 참조하여 주석화를 실시하는 PGAP이 더욱 양질의 결과를 산출하게 된다. 원래 PGAP은 RefSeq genome의 주석화용으로 내부적으로만 쓰이다가 누구나 설치할 수 있는 형태로 배포되기에 이르렀다. 유튜브에는 사용자의 유전체를 PGAP으로 직접 주석화하는 방법을 소개하는 [[https://youtu.be/pNn_-_46lpI|동영상]]이 올라와 있다. 설치와 사용 방법에 대한 상세한 설명은 PGAP 위키 사이트의 [[https://github.com/ncbi/pgap/wiki/Quick-Start|Quick-Start]]를 참고하도록 한다. Standalone 버전이 처음 나왔을 떄에 비하면 설치 방법이 훨씬 간단해진 것 같다. PGAP 버전 번호는 ‘YYYY-MM-DD.build####’의 형식을 따른다. 2023년 6월 22일에 설치한 input-2023-05-17.build6771 버전의 설치 후 용량은 32GB 정도이다.+Prokaryotic Genome Annotation System(PGAP, [[https://www.ncbi.nlm.nih.gov/genome/annotation_prok/|NCBI]] or [[https://github.com/ncbi/pgap|GitHub]])은 세균 유전체의 자동 주석화를 위하여 NCBI에서 공식적으로 사용하는 프로그램이다. 여러 개 유전체 서열에 대하여 신속하게 주석화를 하려면 Prokka가 매우 편리하지만, 대용량의 DB를 참조하여 주석화를 실시하는 PGAP이 더욱 양질의 결과를 산출하게 된다. 원래 PGAP은 RefSeq genome의 주석화용으로 내부적으로만 쓰이다가 누구나 설치할 수 있는 형태로 배포되기에 이르렀다. 유튜브에는 사용자의 유전체를 PGAP으로 직접 주석화하는 방법을 소개하는 [[https://youtu.be/pNn_-_46lpI|동영상]]이 올라와 있다. 설치와 사용 방법에 대한 상세한 설명은 PGAP 위키 사이트의 [[https://github.com/ncbi/pgap/wiki/Quick-Start|Quick-Start]]를 참고하도록 한다. Standalone 버전이 처음 나왔을 떄에 비하면 설치 방법이 훨씬 간단해진 것 같다. PGAP 버전 번호는 ‘YYYY-MM-DD.build####’의 형식을 따른다. 2023년 6월 22일에 설치한 input-2023-05-17.build6771 버전의 설치 후 용량은 32GB 정도이다. PGAP은 conda와 상관이 없다.
  
   # 현재 배포 중인 PGAP의 최신 버전 확인하기   # 현재 배포 중인 PGAP의 최신 버전 확인하기
   $ curl --silent "https://api.github.com/repos/ncbi/pgap/releases/latest" | grep -Po '"tag_name": "\K.*?(?=")' > VERSION   $ curl --silent "https://api.github.com/repos/ncbi/pgap/releases/latest" | grep -Po '"tag_name": "\K.*?(?=")' > VERSION
   $ cat VERSION    $ cat VERSION 
-  2023-05-17.build6771+  2024-07-18.build7555
  
 PGAP은 docker 환경을 사용하므로, 사용자는 관리자이거나 sudo 권한을 갖고 있어야 한다. PGAP 배포판에 포함된 샘플 유전체 서열을 대상으로 주석화를 실행하는 방법은 다음과 같다. pgap.py 스크립트는 /data/apps/pagp에 있다고 가정한다. PGAP은 docker 환경을 사용하므로, 사용자는 관리자이거나 sudo 권한을 갖고 있어야 한다. PGAP 배포판에 포함된 샘플 유전체 서열을 대상으로 주석화를 실행하는 방법은 다음과 같다. pgap.py 스크립트는 /data/apps/pagp에 있다고 가정한다.
Line 426: Line 426:
 CGE 웹사이트에서 서비스하는 것은 resfinder.pl 스크립트이다. 이것은 실행 옵션이 다르고(예: 출력물 디렉토리를 사전에 생성할 필요가 없음) blastall을 사용하며, 모든 내성 DB에 대한 검색을 할 수가 없다. resfinder.pl에 직접 옵션을 주면 스크립트에 내장된 blastall 옵션(-p blastn -a 5 -F F)에 우선하여 적용된다. 그러나 -a <num_threads> 옵션 이외의 것을 바꾸는 것은 권장되지 않는다.  CGE 웹사이트에서 서비스하는 것은 resfinder.pl 스크립트이다. 이것은 실행 옵션이 다르고(예: 출력물 디렉토리를 사전에 생성할 필요가 없음) blastall을 사용하며, 모든 내성 DB에 대한 검색을 할 수가 없다. resfinder.pl에 직접 옵션을 주면 스크립트에 내장된 blastall 옵션(-p blastn -a 5 -F F)에 우선하여 적용된다. 그러나 -a <num_threads> 옵션 이외의 것을 바꾸는 것은 권장되지 않는다. 
 ====ABRicate를 이용한 항생제 내성 병원성 인자(virulence factor) 유전자 예측 ==== ====ABRicate를 이용한 항생제 내성 병원성 인자(virulence factor) 유전자 예측 ====
 +[[https://github.com/tseemann/abricate|ABRicate]]는 contig 혹은 유전체 서열을 대상으로 NCBI, CARD, ARG-ANNOT, Resfinder, MEGARES, EcOH, PlasmidFinder, Ecoli_VF 및 VFDB 등 다양한 DB에 대한 검색을 실시하여 항생제 내성과 병원성 인자를 예측하는 프로그램이다. Raw sequencing read(FASTQ)는 처리하지 못한다. 뒤에서 다룰 TORMES pipeline에 포함되어 있지만, 이 프로그램은 raw sequencing read을 입력물로 받아서 트리밍 등 전처리와 조립부터 출발하는 용도로 쓰인다. 따라서 이미 다른 방식으로 조립이 완료된 contig 서열 파일이 있다면 ABRicate를 사용하는 것이 편리하다. 
  
-===== 이차대사물 생합성 유전자(biosynthetic gene cluster, BGC예측 =====+  $ abricate --list 
 +  DATABASE SEQUENCES DBTYPE DATE 
 +  ecoh 597 nucl 2018-Oct-20 
 +  card 2237 nucl 2018-Oct-20 
 +  ncbi 4579 nucl 2018-Oct-20 
 +  vfdb 2597 nucl 2018-Oct-20 
 +  plasmidfinder 263 nucl 2018-Oct-20 
 +  resfinder 3021 nucl 2018-Oct-20 
 +  ecoli_vf 2701 nucl 2018-Oct-20 
 +  argannot 1749 nucl 2018-Oct-20 
 +  $ abricate -db card contigs.fa  
 +  Using nucl database card:  2237 sequences -  2018-Oct-20 
 +  #FILE SEQUENCE START END GENE COVERAGE COVERAGE_MAP GAPS %COVERAGE %IDENTITY DATABASE ACCESSION PRODUCT 
 +  Processing: contigs.fa 
 +  Found 5 genes in contigs.fa 
 +  contigs.fa Enterococcus 514111 515397 efmA 1-1287/1287 =============== 0/0 100.00 100.00 card AB467372.1:285-1572 efmA is an MFS transporter permease in  E. faecium. 
 +  contigs.fa Enterococcus 1922156 1923199 efrB 45-1086/1086 ========/====== 6/6 95.76 75.05 card HG970103.1:1-1087 efrB is a part of the EfrAB efflux pump and both efrA and efrB are necessary to confer multidrug resistance. 
 +  contigs.fa Enterococcus 1923857 1925292 efrA 1-1434/1457 ========/====== 6/8 98.22 75.12 card HG970100.1:1-1458 efrA is a part of the EfrAB efflux pump and both efrA and efrB are necessary to confer drug resistance. 
 +  contigs.fa Enterococcus 2040199 2040747 AAC(6')-Ii 1-549/549 =============== 0/0 100.00 99.82 card L12710:1-550 AAC(6')-Ii is a chromosomal-encoded aminoglycoside acetyltransferase in Enterococcus spp. 
 +  contigs.fa Enterococcus 2426678 2428156 msrC 1-1479/1479 =============== 0/0 100.00 94.46 card AF313494:1-1480 msrC is a chromosomal-encoded ABC-efflux pump expressed in Enterococcus faecium that confers resistance to erythromycin and other macrolide and streptogramin B antibiotics.
  
 +여러 샘플에 대하여 ABRicate를 실행하였다면 abricate --summary 옵션을 이용하여 gene presence/absence matrix를 만들 수 있다. Contig 서열 파일에 대하여 각각 검색을 실시한 결과를 따로 갖고 있어도 되고, 한 파일에 여러 샘플에 대한 결과가 수록되어 있어도 무방하다.
 +===== 이차대사물 생합성 유전자(biosynthetic gene cluster, BGC) 예측 =====
  
 +[[https://antismash.secondarymetabolites.org/#!/start|antiSMASH bacterial version]]에 GenBank 파일을 업로드하여 분석을 실시한다. 웹서버에서는 동시에 돌릴 수 있는 작업의 수에 한도가 있으므로, local server에 설치하여 사용하는 것도 좋다. 공개된 미생물 유전체에 대하여 미리 예측된 BGC 정보를 검색하려면 [[https://antismash-db.secondarymetabolites.org/#!/start|antiSMASH database]]를 이용하라.
  
  
  
  
bioinfo/유전체_주석화_genome_annotation.1688005176.txt.gz · Last modified: 2023/06/29 11:19 by hyjeong