User Tools

Site Tools


custom_kraken_db_test

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
custom_kraken_db_test [2016/12/13 21:34] – [Standard Kraken database] hyjeongcustom_kraken_db_test [2021/03/17 13:09] (current) – external edit 127.0.0.1
Line 4: Line 4:
 ==== Standard Kraken database ==== ==== Standard Kraken database ====
  
-Kraken DB를 만들려면 taxonomy 정보가 포함된 서열 자료(fasta files)와 NCBI taxonomy 파일이 필요하다. Standard DBy란, NCBI에서 제공하는 bacteria 및 virus의 유전체 서열을 이용한 것이다. 이들 파일에는 서열 ID에 gi 번호가 있어서 taxonomy와 연결되는 키 역할을 한다. 실제로 라이브러리 파일 하나를 열어보면 다음과 같다.+Kraken DB를 만들려면 taxonomy 정보가 포함된 서열 자료(fasta files)와 NCBI taxonomy 파일이 필요하다. **Standard DB**란, NCBI에서 제공하는 bacteria 및 virus의 유전체 서열을 이용한 것이다. 이들 파일에는 서열 ID에 gi 번호가 있어서 taxonomy와 연결되는 키 역할을 한다. 실제로 라이브러리 파일 하나를 열어보면 다음과 같다.
  
   >gi|255767013|ref|NC_000964.3| Bacillus subtilis subsp. subtilis str. 168 chromosome, complete genome   >gi|255767013|ref|NC_000964.3| Bacillus subtilis subsp. subtilis str. 168 chromosome, complete genome
  
-단, 이제는 NCBI에서 bacteria 유전체 서열 전부를 압축한 all.fna.tar.gz를 더 이상 업데이트하지 않고 있으며 보관 위치도 변경되었다. 따라서 Kraken package의 download_genomic_library.sh를 다음과 같이 일부 수정해야 한다. 다행스럽게도 virus에 대해서는 아직 변경되지 않은 위치에서 all.fna.tar.gz를 제공한다.+단, 이제는 NCBI에서 bacteria 유전체 서열 전부를 압축한 all.fna.tar.gz를 더 이상 업데이트하지 않고 있으며 보관 위치도 변경되었다. 따라서 Kraken package의 download_genomic_library.sh를 다음과 같이 일부 수정해야 한다. 다행스럽게도 virus에 대해서는 아직 변경되지 않은 위치에서 all.fna.tar.gz를 제공한다. bacteria 라이브러리는 2786건의 유전체(업데이트되지 않음), 그리고 viruses 라이브러리는 2017년 3월 28일 현재 4391 건의 유전체가 존재한다. plamids library는 download_genomic_library.sh에 따르면 $FTP_SERVER/genomes/Plasmids/plasmids.all.fna.tar.gz를 받는 것으로 되어있지만, 이 파일은 현재 보이지 않는다. NCBI ftp 트리를 뒤져보니 ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_refseq/Plasmids/plasmids.all.fna.tar.gz가 존재한다.
  
 +  FTP_SERVER="ftp://ftp.ncbi.bln.nih.gov"
   (수정 전) wget $FTP_SERVER/genomes/Bacteria/all.fna.tar.gz   (수정 전) wget $FTP_SERVER/genomes/Bacteria/all.fna.tar.gz
   (수정 후) wget $FTP_SERVER/genomes/archive/old_refseq/Bacteria/all.fna.tar.gz   (수정 후) wget $FTP_SERVER/genomes/archive/old_refseq/Bacteria/all.fna.tar.gz
Line 15: Line 16:
 **현재의 [[https://github.com/DerrickWood/kraken|GitHub]] 사이트에서 배포하는 소스에는 Bacteria용 download URL이 수정된되었음을 확인하였다.** --- //[[hyjeong@kribb.re.kr|Haeyoung Jeong]] 2016/12/13 19:33// **현재의 [[https://github.com/DerrickWood/kraken|GitHub]] 사이트에서 배포하는 소스에는 Bacteria용 download URL이 수정된되었음을 확인하였다.** --- //[[hyjeong@kribb.re.kr|Haeyoung Jeong]] 2016/12/13 19:33//
  
-Bacteria/all.fna.tar.gz는 5242개의 complete sequence로서 복수의 염색체가 존재하는 경우 별도의 .fna 파일로 분리된 상태이다. kraken-build --standard라고 실행을 하면 fasta file과 taxonomy 파일의 다운로드부터 이루어진다. 실제 standard kraken library를 만드는 명령어를 다음에 소개하였다. 256 GB의 메모리가 장착된 서버에서 16개의 thread를 사용하였다(Intel(R) Xeon(R) CPU E5-2630 v3 @ 2.40GHz x 2ea). 여기에서는 kraken 프로그램이 설치된 디렉토리에서 모든 작업을 하는 것으로 가정하였고, 목표가 되는 DB의 이름은 kraken-standard이다. kraken 설치 디렉토리를 $PATH 환경변수에 선언하고 임의의 위치에서 실행해도 된다. jellyfish 1.x의 실행파일이 $PATH에 반드시 있어야 한다.+Bacteria/all.fna.tar.gz는 5242개의 complete sequence로서 복수의 염색체가 존재하는 경우 별도의 .fna 파일로 분리된 상태이다. kraken-build --standard라고 실행을 하면 fasta file과 taxonomy 파일의 다운로드부터 이루어진다. 실제 standard kraken library를 만드는 명령어를 다음에 소개하였다. 사용한 서버는 256 GB의 메모리가 장착되었으며 16개의 thread를 사용하였다(Intel(R) Xeon(R) CPU E5-2630 v3 @ 2.40GHz x 2ea). 여기에서는 kraken 프로그램이 설치된 디렉토리에서 모든 작업을 하는 것으로 가정하였고, 목표가 되는 DB의 이름은 kraken-standard이다. kraken 설치 디렉토리를 $PATH 환경변수에 선언하고 임의의 위치에서 실행해도 된다. jellyfish 1.x의 실행파일이 $PATH에 반드시 있어야 한다. kraken database의 이름(아래 사례에서는 kraken-standard)은 실제적으로는 디렉토리 명칭으로서, kraken-build를 실행하면 새로 만들어진다. [[http://ccb.jhu.edu/software/bracken/index.shtml|Braken]]을 할 계획이라면 --clean을 사용하지 말기 바란다. 라이브러리 파일(.fna)과 gi2seqid.map 파일이 필요하기 때문이다.
  
-  $ mkdir kraken-standard 
   $ PATH=/home/test/metAMOS-1.5rc3/Utilities/cpp/Linux-x86_64/jellyfish/bin:$PATH   $ PATH=/home/test/metAMOS-1.5rc3/Utilities/cpp/Linux-x86_64/jellyfish/bin:$PATH
   $ ./kraken-build --standard --threads 16 --db kraken-standard   $ ./kraken-build --standard --threads 16 --db kraken-standard
Line 57: Line 57:
  
 {{ :kraken.png?direct&400 |}} {{ :kraken.png?direct&400 |}}
 +
 +==== GI number의 퇴출 문제 ====
 +2016년 9월을 기하여 NCBI가 제공하는 GenBank, GenPept 및 FASTA 포맷에서는 더 이상 GI 번호를 쓰지 않게 되었다([[https://www.ncbi.nlm.nih.gov/news/03-02-2016-phase-out-of-GI-numbers/|공지문]]). 이를 해결하기 위한 방안이 opinomics 사이트에 게시되었다. 
      
 ===== Kraken 실행 방법 ===== ===== Kraken 실행 방법 =====
custom_kraken_db_test.1481632463.txt.gz · Last modified: 2021/03/17 13:09 (external edit)