This is an old revision of the document!
Table of Contents
Metagenomic data assembly pipeline
metaWRAP
설치하기
- 설치 환경: ryzen-5950x server(32 threads, 128G memory)
- 설치 시작일: 2022년 7월 76일
mamba로 metaWRAP dependency를 설치하는 막바지 단계에서 QUAST가 요구하는 몇 개의 것을 수동으로 설치해야 한다.
The default QUAST package does not include: * GRIDSS (needed for structural variants detection) * SILVA 16S rRNA database (needed for reference genome detection in metagenomic datasets) * BUSCO tools and databases (needed for searching BUSCO genes) -- works in Linux only! To be able to use those, please run quast-download-gridss quast-download-silva quast-download-busco
마지막 명령어 세 줄을 실행하면서 에러를 만나게 될 것이다. 해결 방안은 잘 알고 있지? 대부분 SSL 인증서와 관련한 파일 다운로드 문제이다. metawrap-env를 나가서 개별 파일을 받는 것이 오히려 더 성공적일 때도 있다.
Database configuration
tube server의 /data/Utilities/DB와 ryzen 서버의 /data/DB에 metaWRAP용 DB를 같이 설치하여 두도록 한다.
NCBI BLAST-nt DB 설치
최종 업데이트 날짜를 확인한다.
$ https://ftp.ncbi.nlm.nih.gov/blast/db/nt-nucl-metadata.json
MD5 checksum 파일을 다운로드한다.
$ seq -w 0 68 | while read f > do > wget https://ftp.ncbi.nlm.nih.gov/blast/db/nt.$f.tar.gz.md5 > done
nt-nucl-metadata.json에서 각 nr.*.tar.gz의 download full path를 추출하여 wget 명령어 라인 파일을 만든 뒤 parallel로 실행한다.
$ grep tar.gz nt-nucl-metadata.json | sed 's/[",]//g' | while read f > do > echo wget $f >> download.sh > done $ nohup parallel -j 8 < download.sh &
parallel에 '--results out' 파라미터를 주면 out 디렉토리 아래에 각 명령줄에 해당하는 표준 출력/표준 에러가 파일로 기록되므로, 다운로드가 오류 없이 끝났는지를 확인할 수 있다. 최종적으로 md5 checksum 파일을 점검하여 파일에 오류가 없는지 알아본다.
KRAKEN 2 Standard DB 설치 오류
KRAKEN 2 GitHub repository에서 반드시 최신 버전의 소스를 다운로드한다. 그러나 다음 명령어를 실행하면 rsync_from_ncbi.pl: unexpected FTP path (new server?) 오류가 뜰 것이다.
kraken2-build --standard --threads 24 --db MY_KRAKEN2_DB
Kraken2 wiki의 FAQ에도 나올 정도로 유명한 문제이지만 여기에 나온대로 하면 해결이 되지 않았다. 다음의 두 사이트를 참고하여 관련 스크립트를 수정하니 겨우 유전체 파일 다운로드가 잘 되었다.
- https://bytemeta.vip/repo/DerrickWood/kraken2/issues/525 맨 아래 aeu79의 글을 따라서 하여라.