Table of Contents
Metagenomic data assembly pipeline
metaWRAP
설치하기
- 설치 환경: ryzen-5950x server(32 threads, 128G memory)
- 설치 시작일: 2022년 7월 76일
mamba로 metaWRAP dependency를 설치하는 막바지 단계에서 QUAST가 요구하는 몇 개의 것을 수동으로 설치해야 한다.
The default QUAST package does not include: * GRIDSS (needed for structural variants detection) * SILVA 16S rRNA database (needed for reference genome detection in metagenomic datasets) * BUSCO tools and databases (needed for searching BUSCO genes) -- works in Linux only! To be able to use those, please run quast-download-gridss quast-download-silva quast-download-busco
마지막 명령어 세 줄을 실행하면서 에러를 만나게 될 것이다. 해결 방안은 잘 알고 있지? 대부분 SSL 인증서와 관련한 파일 다운로드 문제이다. metawrap-env를 나가서 개별 파일을 받는 것이 오히려 더 성공적일 때도 있다.
Database configuration
tube server의 /data/Utilities/DB와 ryzen 서버의 /data/DB에 metaWRAP용 DB를 같이 설치하여 두도록 한다.
NCBI BLAST-nt DB 설치
NCBI가 제공하는 Perl 스크립트 update_blastdb.pl을 그대로 쓰기에는 조금 심심해 보여서 내 나름대로의 방안을 구상해 보았다. 먼저 최종 업데이트 날짜를 확인한다.
$ https://ftp.ncbi.nlm.nih.gov/blast/db/nt-nucl-metadata.json
MD5 checksum 파일을 다운로드한다.
$ seq -w 0 68 | while read f > do > wget https://ftp.ncbi.nlm.nih.gov/blast/db/nt.$f.tar.gz.md5 > done
nt-nucl-metadata.json에서 각 nr.*.tar.gz의 download full path를 추출하여 wget 명령어 라인 파일을 만든 뒤 parallel로 실행한다.
$ grep tar.gz nt-nucl-metadata.json | sed 's/[",]//g' | while read f > do > echo wget $f >> download.sh > done $ nohup parallel -j 8 < download.sh &
parallel에 '--results out' 파라미터를 주면 out 디렉토리 아래에 각 명령줄에 해당하는 표준 출력/표준 에러가 파일로 기록되므로, 다운로드가 오류 없이 끝났는지를 확인할 수 있다. 최종적으로 md5 checksum 파일을 점검하여 파일에 오류가 없는지 알아본다. 실제로 확인을 해 보니 md5 checksum이 맞지 않는 파일이 너무나 많았다. 정확한 이유는 모르겠으나 중간에 접속이 끊기면 바로 다음 파일로 넘어가는 때문이 아닐까 한다. 이래서는 안정적인 다운로드가 곤란하다. 차라리 rsync가 낫지 않을까? 여기에 그 방법이 있다.
Parallel download of blast databases using rsync and GNU Parallel
또는 NCBI의 update_blastdb.pl보다 더 빠른 스크립트라는 ncbi-blast-dbs도 있다.
KRAKEN 2 Standard DB 설치 오류
KRAKEN 2 GitHub repository에서 반드시 최신 버전의 소스를 다운로드한다. 그러나 다음 명령어를 실행하면 rsync_from_ncbi.pl: unexpected FTP path (new server?) 오류가 뜰 것이다.
kraken2-build --standard --threads 24 --db MY_KRAKEN2_DB
Kraken2 wiki의 FAQ에도 나올 정도로 유명한 문제이지만 여기에 나온대로 하면 해결이 되지 않았다. 다음의 두 사이트를 참고하여 관련 스크립트를 수정하니 겨우 유전체 파일 다운로드가 잘 되었다.
- https://bytemeta.vip/repo/DerrickWood/kraken2/issues/525 맨 아래 aeu79의 글을 따라서 하여라.
Anvi'o (An open-source, community-driven analysis and visualization platform for microbial 'omics)
Community-led, integrated, reproducible multi-omics with anvi’o 논문 공식 웹사이트
nf-core/mag
bio-protocol MAG binning and dereplication extracted from Nat Commun, Mar 2021 DOI: 10.1038/s41467-021-22203-2