User Tools

Site Tools


bioinfo:유전체_주석화_genome_annotation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
bioinfo:유전체_주석화_genome_annotation [2025/05/23 14:38] – [PGAP 사용하기] hyjeongbioinfo:유전체_주석화_genome_annotation [2025/07/29 08:15] (current) – [Bakta] hyjeong
Line 1: Line 1:
 ====== 유전체 주석화(genome annotation) ====== ====== 유전체 주석화(genome annotation) ======
 +
 +[[prokaryotic_genome_analysis_manual_2023|상위 페이지 - Prokaryotic genome analysis manual]]
 +
 주석화 결과를 외부와 공유하고 관련 유전체와 비교 분석을 할 목적이라면 [[https://rast.nmpdr.org/|RAST(Rapid Annotation using Subsystem Technology) server]]에 회원 등록을 하고 염기서열 파일을 업로드하는 것으로 충분하다. 그러나 로컬 컴퓨터에 직접 프로그램을 깔아서 유전체 주석화를 실시하고 싶은 욕구는 누구나 갖고 있을 것이다. 어떤 프로그램이 있는지 알아보자. 주석화 결과를 외부와 공유하고 관련 유전체와 비교 분석을 할 목적이라면 [[https://rast.nmpdr.org/|RAST(Rapid Annotation using Subsystem Technology) server]]에 회원 등록을 하고 염기서열 파일을 업로드하는 것으로 충분하다. 그러나 로컬 컴퓨터에 직접 프로그램을 깔아서 유전체 주석화를 실시하고 싶은 욕구는 누구나 갖고 있을 것이다. 어떤 프로그램이 있는지 알아보자.
 ===== Prokka 사용하기 ===== ===== Prokka 사용하기 =====
Line 9: Line 12:
 일본에서 개발한 DFAST(DDBJ Fast Annotation and Submission)의 stand-alone version인 [[https://github.com/nigyta/dfast_core|dfast_core]]는 functional annotation을 위해 사용하는 데이터베이스 용량이 prokka보다는 좀 더 크고, pseudogene에 대한 정보를 주기 때문에 유용하다. DFAST는 [[https://dfast.ddbj.nig.ac.jp/|웹 버전]]으로도 사용 가능하다.  일본에서 개발한 DFAST(DDBJ Fast Annotation and Submission)의 stand-alone version인 [[https://github.com/nigyta/dfast_core|dfast_core]]는 functional annotation을 위해 사용하는 데이터베이스 용량이 prokka보다는 좀 더 크고, pseudogene에 대한 정보를 주기 때문에 유용하다. DFAST는 [[https://dfast.ddbj.nig.ac.jp/|웹 버전]]으로도 사용 가능하다. 
  
 +===== Bakta =====
 +Bakta([[https://www.microbiologyresearch.org/content/journal/mgen/10.1099/mgen.0.000685|논문]], [[https://github.com/oschwengers/bakta|GitHub]])는 isoate genome과 MAG 및 플라스미드의 신속하고 표준화된 주석화를 위한 커맨드라인 툴이다. UniRef100, UniRef90, UniParc 기반의 폭넓고 표준화된 커스텀 데이터베이스를 사용하여, 특정 세균 계통에 구애받지 않고 다양한 종을 포괄적으로 처리하며, MD5 해시 기반으로 알려진 단백질 서열(Identical Protein Sequences; IPS)을 고속 식별하여, RefSeq WP, UniRef100, UniParc UPI 식별자를 정확하게 부여한다. [[https://github.com/laxeye/zga|ZGA pipeline]]에서도 빠른 주석화 도구로 쓰인다.
 ===== PGAP 사용하기 ===== ===== PGAP 사용하기 =====
-Prokaryotic Genome Annotation System(PGAP, [[https://www.ncbi.nlm.nih.gov/genome/annotation_prok/|NCBI]] or [[https://github.com/ncbi/pgap|GitHub]])은 세균 유전체의 자동 주석화를 위하여 NCBI에서 공식적으로 사용하는 프로그램이다. 여러 개 유전체 서열에 대하여 신속하게 주석화를 하려면 Prokka가 매우 편리하지만, 대용량의 DB를 참조하여 주석화를 실시하는 PGAP이 더욱 양질의 결과를 산출하게 된다. 원래 PGAP은 RefSeq genome의 주석화용으로 내부적으로만 쓰이다가 누구나 설치할 수 있는 형태로 배포되기에 이르렀다. 유튜브에는 사용자의 유전체를 PGAP으로 직접 주석화하는 방법을 소개하는 [[https://youtu.be/pNn_-_46lpI|동영상]]이 올라와 있다. 설치와 사용 방법에 대한 상세한 설명은 PGAP 위키 사이트의 [[https://github.com/ncbi/pgap/wiki/Quick-Start|Quick-Start]]를 참고하도록 한다. Standalone 버전이 처음 나왔을 떄에 비하면 설치 방법이 훨씬 간단해진 것 같다. PGAP 버전 번호는 ‘YYYY-MM-DD.build####’의 형식을 따른다. 2025년 5월 23일에 최신 버전인 2025-05-06.build7983로 업데이트하였다. PGAP을 설치하고 활용할 때에는 conda가 필요하지 않다.+Prokaryotic Genome Annotation System(PGAP, [[https://www.ncbi.nlm.nih.gov/genome/annotation_prok/|NCBI]] or [[https://github.com/ncbi/pgap|GitHub]])은 세균 유전체의 자동 주석화를 위하여 NCBI에서 공식적으로 사용하는 프로그램이다. 여러 개 유전체 서열에 대하여 신속하게 주석화를 하려면 Prokka가 매우 편리하지만, 대용량의 DB를 참조하여 주석화를 실시하는 PGAP이 더욱 세밀하고 양질의 결과를 산출하게 된다. 원래 PGAP은 RefSeq genome의 주석화용으로 내부적으로만 쓰이다가 누구나 설치할 수 있는 형태로 배포되기에 이르렀다. 유튜브에는 사용자의 유전체를 PGAP으로 직접 주석화하는 방법을 소개하는 [[https://youtu.be/pNn_-_46lpI|동영상]]이 올라와 있다. 설치와 사용 방법에 대한 상세한 설명은 PGAP 위키 사이트의 [[https://github.com/ncbi/pgap/wiki/Quick-Start|Quick-Start]]를 참고하도록 한다. Standalone 버전이 처음 나왔을 떄에 비하면 설치 방법이 훨씬 간단해진 것 같다. PGAP 버전 번호는 ‘YYYY-MM-DD.build####’의 형식을 따른다. 2025년 5월 23일에 최신 버전인 2025-05-06.build7983로 업데이트하였다. PGAP을 설치하고 활용할 때에는 conda가 필요하지 않다.
  
   # 현재 배포 중인 PGAP의 최신 버전 확인하기   # 현재 배포 중인 PGAP의 최신 버전 확인하기
   $ curl --silent "https://api.github.com/repos/ncbi/pgap/releases/latest" | grep -Po '"tag_name": "\K.*?(?=")' > VERSION   $ curl --silent "https://api.github.com/repos/ncbi/pgap/releases/latest" | grep -Po '"tag_name": "\K.*?(?=")' > VERSION
   $ cat VERSION    $ cat VERSION 
-  2024-07-18.build7555+  2025-05-06.build7983
  
-PGAP은 docker 환경을 사용하므로, 사용자는 관리자이거나 sudo 권한을 갖고 있어야 한다. PGAP 배포판에 포함된 샘플 유전체 서열을 대상으로 주석화를 실행하는 방법은 다음과 같다. pgap.py 스크립트는 /data/apps/pagp에 있다고 가정한다.+PGAP은 docker 환경을 사용하므로, 사용자는 관리자이거나 sudo 권한을 갖고 있어야 한다. PGAP 배포판에 포함된 샘플 유전체 서열을 대상으로 주석화를 실행하는 방법은 다음과 같다. pgap.py 스크립트는 /data/apps/pagp에 있다고 가정한다. 파일이 설치되는 위치는 $HOME/.pgap을 기본으로 하지만 환경변수 PGAP_INPUT_DIR를 통해 임의로 지정할 수 있다.
  
   # docker가 실행 중인지 확인   # docker가 실행 중인지 확인
bioinfo/유전체_주석화_genome_annotation.1747978689.txt.gz · Last modified: by hyjeong