====== Data download from NCBI ====== 명령행 환경에서 NCBI의 자료를 다운로드하는 방법을 정리하였다. ===== 게으른 사람을 위하여 ===== accession number 또는 identifier를 파일로 정리한 뒤 [[https://www.ncbi.nlm.nih.gov/sites/batchentrez|Batch Entrez]]에 입력한다. 검색 결과는 원하는 형태로 전환하여 파일로 받으면 된다. ===== Genome 자료 전용 스크립트 ===== Kai Blin의 [[https://github.com/kblin/ncbi-genome-download|ncbi-genome-download]] 또는 [[https://github.com/kblin/ncbi-acc-download|ncbi-acc-download]]를 쓰는 것을 권장한다. 전자는 검색 조건을 매우 다양하게 지정할 수 있는 반면, 후자는 accession number만을 질의어로 취급한다고 생각하면 된다. ncbi-acc-download라는 스크립트명을 보고 처음에는 단백질에 대한 accession도 처리가 된다고 생각하였으나, GenBank 또는 RefSeq에 있는 유전체 정보만을 대상으로 한다. ===== Entrez Direct(EDirect) utility를 사용하기 ===== * https://www.ncbi.nlm.nih.gov/books/NBK179288/ * [[https://github.com/NCBI-Hackathons/EDirectCookbook|EDirect Cookbook]] 간단한 사례를 보자. 물론 이렇게 자료를 가져올 것이라면, Batch Entrez를 쓰는 것이 훨씬 현명하다. esearch -db nuccore -query "2209443742 [GI]" | efetch -format gb > download.gbk ===== 잡담 ===== https://blog.genoglobe.com/2022/03/accession.html