bioinfo:data_download_from_ncbi
Table of Contents
Data download from NCBI
명령행 환경에서 NCBI의 자료를 다운로드하는 방법을 정리하였다.
게으른 사람을 위하여
accession number 또는 identifier를 파일로 정리한 뒤 Batch Entrez에 입력한다. 검색 결과는 원하는 형태로 전환하여 파일로 받으면 된다.
Genome 자료 전용 스크립트
Kai Blin의 ncbi-genome-download 또는 ncbi-acc-download를 쓰는 것을 권장한다. 전자는 검색 조건을 매우 다양하게 지정할 수 있는 반면, 후자는 accession number만을 질의어로 취급한다고 생각하면 된다. ncbi-acc-download라는 스크립트명을 보고 처음에는 단백질에 대한 accession도 처리가 된다고 생각하였으나, GenBank 또는 RefSeq에 있는 유전체 정보만을 대상으로 한다.
Entrez Direct(EDirect) utility를 사용하기
간단한 사례를 보자. 물론 이렇게 자료를 가져올 것이라면, Batch Entrez를 쓰는 것이 훨씬 현명하다.
esearch -db nuccore -query "2209443742 [GI]" | efetch -format gb > download.gbk
잡담
bioinfo/data_download_from_ncbi.txt · Last modified: 2022/03/24 12:37 by hyjeong