User Tools

Site Tools


downloading_genomes_from_ncbi_ftp_site

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
downloading_genomes_from_ncbi_ftp_site [2021/06/09 14:39] – [NCBI FTP 사이트에서 유전체 정보 파일 다운로드하기] hyjeongdownloading_genomes_from_ncbi_ftp_site [2023/06/22 17:12] (current) – ↷ Links adapted because of a move operation hyjeong
Line 40: Line 40:
   - 다음의 설명을 참조하여 파일 이름을 적절히 바꾼다.   - 다음의 설명을 참조하여 파일 이름을 적절히 바꾼다.
  
-받은 파일의 이름은 (assembly_accession)_(asm_name)_(나머지 부분)의 형식을 갖는다. 예를 들자면 **GCF_002264385.1_ASM226438v1_genomic.fna**와 같은 방식이다. 균주의 이름이나 우리가 논문 등에서 흔히 접하는 서열 accession number(CP######, NC_######)는 아예 나타나지도 않고 asm_name(ASM#####v#)은 unique하지도 않다. 따라서 파일의 이름만 보고도 대략적인 정보를 파악할 수 이도록 이를 적절히 수정해야 한다. 새로운 파일명에 사용할 모든 정보는 당연히 list_all에 있으므로 이를 적절히 조합하여 만든다. 이 과정에 도움을 주는 스크립트가 custom Perl script인 my_rename1.pl과 my_rename2.pl이다([[custom Perl scripts|링크]]). 혹시 파일명에 부적합한 값(예: 공백)이 있을지도 모르니 눈으로 한번 확인하는 것이 좋다. 이를 다운로드한 파일과 연결할 키는 (assembly_accession)_(asm_name)이다(my_rename1.pl의 결과 파일인 id2name의 첫번째 컬럼). (assembly_accession)만을 키로 사용해도 될 것이다.+받은 파일의 이름은 (assembly_accession)_(asm_name)_(나머지 부분)의 형식을 갖는다. 예를 들자면 **GCF_002264385.1_ASM226438v1_genomic.fna**와 같은 방식이다. 균주의 이름이나 우리가 논문 등에서 흔히 접하는 서열 accession number(CP######, NC_######)는 아예 나타나지도 않고 asm_name(ASM#####v#)은 unique하지도 않다. 따라서 파일의 이름만 보고도 대략적인 정보를 파악할 수 이도록 이를 적절히 수정해야 한다. 새로운 파일명에 사용할 모든 정보는 당연히 list_all에 있으므로 이를 적절히 조합하여 만든다. 이 과정에 도움을 주는 스크립트가 custom Perl script인 my_rename1.pl과 my_rename2.pl이다([[custom_scripts|링크]]). 혹시 파일명에 부적합한 값(예: 공백)이 있을지도 모르니 눈으로 한번 확인하는 것이 좋다. 이를 다운로드한 파일과 연결할 키는 (assembly_accession)_(asm_name)이다(my_rename1.pl의 결과 파일인 id2name의 첫번째 컬럼). (assembly_accession)만을 키로 사용해도 될 것이다.
  
   $ curl -o refseq_bacteria_assembly_summary_`date +%Y-%m-%d`.txt ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/assembly_summary.txt   $ curl -o refseq_bacteria_assembly_summary_`date +%Y-%m-%d`.txt ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/assembly_summary.txt
downloading_genomes_from_ncbi_ftp_site.1623217144.txt.gz · Last modified: 2021/06/09 14:39 by hyjeong