====== Korea BioData Station (K-BDS) ====== [[https://kbds.re.kr/|K-BDS]]란 국가연구개발사업으로 생성된 바이오 분야의 연구 성과를 등록하고 공유하는 [[https://kobic.re.kr/|KOBIC]]의 서비스이다. 바이오 분야의 학술논문을 내고자 할 때 데이터를 공개된 리포지토리에 올려서 사전에 공개하는 것이 하나의 상식으로 되어 있다. K-BDS는 국외 리포지토리의 대안으로서 2022년부터 서비스를 시작하였다. 우리나라에서는 이것에 더하여 연구성과물의 사후 관리를 위한 시스템으로 쓰이고 있다. ===== 내가 등록한 모든 자료 ===== 내가 등록한 모든 자료의 바이오프로젝트는 [[https://kbds.re.kr/BioProject/browse?page=1&display=&keyword=%EC%A0%95%ED%95%B4%EC%98%81&size=10|여기]]에서 볼 수 있다. 내가 이 데이터를 생성하게 만들었던 과제책임자라는 의미는 아니다. 그 과제에 참여한 사람으로서 아직까지 데이터를 갖고 있었고, 내가 등록을 했음을 의미한다. ===== 72 prokaryotic genomes from KCTC ===== '72 prokaryotic genomes from KCTC'라는 제목은 정확하지 않다. 'Genome sequencing of 72 prokaryotic strains provided by KCTC'라고 하는 것이 더 나을 것이다. 2014년에 KRIBB에서 일루미나 플랫폼(HiSeq 2000, 2 x 101 nt cycle)으로 생산했던 72개 균주의 raw sequencing data를 10년이 지나서 K-BDS의 KRA section에 등록하고자 한다. 일부는 Genome Announcements류의 저널을 통해서 이미 공개가 되었다. 개인적인 경험으로는 다음과 같이 //Acinetobacter baumannii//의 99개 균주에 대한 일루미나 시퀀싱 결과(조립 포함)을 NCBI에 등록했던 것([[https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJNA448358|PRJNA448358]] - Multidrug resistant Acinetobacter baumannii strains isolated from blood of hospitalized patients)이 가장 큰 규모의 유전체 프로젝트였다. 이번 등록 작업은 워낙 다양한 종을 포함하고 있어서 쉽지는 않을 것이다. 뿐만 아니라 현재의 prokaryotic genome-based taxonomy에 맞게 이름을 잘 붙이는 일이 중요하다. 그리고 sequencing read에 대한 QC도 다시 한번 살펴 볼 것이다. 이에 대한 상세한 내용은 [[72 prokaryotic genomes]]에 기록한다. 2025년 1분기에 완료하는 것을 목표로 한다. 유전체를 기반으로 하는 prokaryote의 분석(특히 classification) 도구로는 다음과 같은 것이 유용하다. 일부는 local에 설치하여 쓸 수 있는 것도 있으니 잘 익혀 두도록 하자. * [[https://gtdb.ecogenomic.org/|Genome Taxonomy Database: GTDB]], [[https://github.com/Ecogenomics/GTDBTk|GTDB-Tk]] * [[https://tygs.dsmz.de/|Type (Strain) Genome Server]] * [[https://progenomes.embl.de/index.cgi|proGenomes]] 첫 실행에서 발생하는 NumPy 관련 에러 해결: https://forum.gtdb.ecogenomic.org/t/error-running-gtdb-tk-v2-1-1-attributeerror-module-numpy-has-no-attribute-bool/410/4