User Tools

Site Tools


bioinfo:data_download_from_ncbi

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
bioinfo:data_download_from_ncbi [2022/03/24 08:13] – created hyjeongbioinfo:data_download_from_ncbi [2022/03/24 12:37] (current) – [Entrez Direct(EDirect) utility를 사용하기] hyjeong
Line 2: Line 2:
 명령행 환경에서 NCBI의 자료를 다운로드하는 방법을 정리하였다. 명령행 환경에서 NCBI의 자료를 다운로드하는 방법을 정리하였다.
  
 +===== 게으른 사람을 위하여 =====
 +accession number 또는 identifier를 파일로 정리한 뒤 [[https://www.ncbi.nlm.nih.gov/sites/batchentrez|Batch Entrez]]에 입력한다. 검색 결과는 원하는 형태로 전환하여 파일로 받으면 된다. 
 ===== Genome 자료 전용 스크립트 ===== ===== Genome 자료 전용 스크립트 =====
-Kai Blin의 [[https://github.com/kblin/ncbi-genome-download|ncbi-genome-download]] 또는 [[https://github.com/kblin/ncbi-acc-download|ncbi-acc-download]]를 쓰는 것을 권장한다.+Kai Blin의 [[https://github.com/kblin/ncbi-genome-download|ncbi-genome-download]] 또는 [[https://github.com/kblin/ncbi-acc-download|ncbi-acc-download]]를 쓰는 것을 권장한다. 전자는 검색 조건을 매우 다양하게 지정할 수 있는 반면, 후자는 accession number만을 질의어로 취급한다고 생각하면 된다. ncbi-acc-download라는 스크립트명을 보고 처음에는 단백질에 대한 accession도 처리가 된다고 생각하였으나, GenBank 또는 RefSeq에 있는 유전체 정보만을 대상으로 한다.  
 + 
 +===== Entrez Direct(EDirect) utility를 사용하기 ===== 
 +  * https://www.ncbi.nlm.nih.gov/books/NBK179288/ 
 +  * [[https://github.com/NCBI-Hackathons/EDirectCookbook|EDirect Cookbook]] 
 +간단한 사례를 보자. 물론 이렇게 자료를 가져올 것이라면, Batch Entrez를 쓰는 것이 훨씬 현명하다. 
 +  esearch -db nuccore -query "2209443742 [GI]" | efetch -format gb > download.gbk 
 + 
 +===== 잡담 ===== 
 +https://blog.genoglobe.com/2022/03/accession.html
bioinfo/data_download_from_ncbi.1648077223.txt.gz · Last modified: by hyjeong