User Tools

Site Tools


Sidebar

This is the sidebar. Without it, the main text is too wide!


2019년 11월 교육 자료


2022년 교육안

metagenomic_data_assembly_pipeline

Metagenomic data assembly pipeline

metaWRAP

MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis 논문 GitHub

설치하기

mamba로 metaWRAP dependency를 설치하는 막바지 단계에서 QUAST가 요구하는 몇 개의 것을 수동으로 설치해야 한다.

The default QUAST package does not include:
* GRIDSS (needed for structural variants detection)
* SILVA 16S rRNA database (needed for reference genome detection in metagenomic datasets)
* BUSCO tools and databases (needed for searching BUSCO genes) -- works in Linux only!

To be able to use those, please run
  quast-download-gridss
  quast-download-silva
  quast-download-busco

마지막 명령어 세 줄을 실행하면서 에러를 만나게 될 것이다. 해결 방안은 잘 알고 있지? 대부분 SSL 인증서와 관련한 파일 다운로드 문제이다. metawrap-env를 나가서 개별 파일을 받는 것이 오히려 더 성공적일 때도 있다.

Database configuration

tube server의 /data/Utilities/DB와 ryzen 서버의 /data/DB에 metaWRAP용 DB를 같이 설치하여 두도록 한다.

NCBI BLAST-nt DB 설치

NCBI가 제공하는 Perl 스크립트 update_blastdb.pl을 그대로 쓰기에는 조금 심심해 보여서 내 나름대로의 방안을 구상해 보았다. 먼저 최종 업데이트 날짜를 확인한다.

$ https://ftp.ncbi.nlm.nih.gov/blast/db/nt-nucl-metadata.json 

MD5 checksum 파일을 다운로드한다.

$ seq -w 0 68 | while read f
> do
> wget https://ftp.ncbi.nlm.nih.gov/blast/db/nt.$f.tar.gz.md5 
> done

nt-nucl-metadata.json에서 각 nr.*.tar.gz의 download full path를 추출하여 wget 명령어 라인 파일을 만든 뒤 parallel로 실행한다.

$ grep tar.gz nt-nucl-metadata.json | sed 's/[",]//g' | while read f
> do
> echo wget $f >> download.sh
> done
$ nohup parallel -j 8 < download.sh &

parallel에 '--results out' 파라미터를 주면 out 디렉토리 아래에 각 명령줄에 해당하는 표준 출력/표준 에러가 파일로 기록되므로, 다운로드가 오류 없이 끝났는지를 확인할 수 있다. 최종적으로 md5 checksum 파일을 점검하여 파일에 오류가 없는지 알아본다. 실제로 확인을 해 보니 md5 checksum이 맞지 않는 파일이 너무나 많았다. 정확한 이유는 모르겠으나 중간에 접속이 끊기면 바로 다음 파일로 넘어가는 때문이 아닐까 한다. 이래서는 안정적인 다운로드가 곤란하다. 차라리 rsync가 낫지 않을까? 여기에 그 방법이 있다.

Parallel download of blast databases using rsync and GNU Parallel

또는 NCBI의 update_blastdb.pl보다 더 빠른 스크립트라는 ncbi-blast-dbs도 있다.

KRAKEN 2 Standard DB 설치 오류

KRAKEN 2 GitHub repository에서 반드시 최신 버전의 소스를 다운로드한다. 그러나 다음 명령어를 실행하면 rsync_from_ncbi.pl: unexpected FTP path (new server?) 오류가 뜰 것이다.

kraken2-build --standard --threads 24 --db MY_KRAKEN2_DB

Kraken2 wiki의 FAQ에도 나올 정도로 유명한 문제이지만 여기에 나온대로 하면 해결이 되지 않았다. 다음의 두 사이트를 참고하여 관련 스크립트를 수정하니 겨우 유전체 파일 다운로드가 잘 되었다.

Anvi'o (An open-source, community-driven analysis and visualization platform for microbial 'omics)

Community-led, integrated, reproducible multi-omics with anvi’o 논문 공식 웹사이트

nf-core/mag

bio-protocol MAG binning and dereplication extracted from Nat Commun, Mar 2021 DOI: 10.1038/s41467-021-22203-2

metagenomic_data_assembly_pipeline.txt · Last modified: 2022/07/08 12:44 by hyjeong