Table of Contents

Korea BioData Station (K-BDS)

K-BDS란 국가연구개발사업으로 생성된 바이오 분야의 연구 성과를 등록하고 공유하는 KOBIC의 서비스이다. 바이오 분야의 학술논문을 내고자 할 때 데이터를 공개된 리포지토리에 올려서 사전에 공개하는 것이 하나의 상식으로 되어 있다. K-BDS는 국외 리포지토리의 대안으로서 2022년부터 서비스를 시작하였다. 우리나라에서는 이것에 더하여 연구성과물의 사후 관리를 위한 시스템으로 쓰이고 있다.

내가 등록한 모든 자료

내가 등록한 모든 자료의 바이오프로젝트는 여기에서 볼 수 있다. 내가 이 데이터를 생성하게 만들었던 과제책임자라는 의미는 아니다. 그 과제에 참여한 사람으로서 아직까지 데이터를 갖고 있었고, 내가 등록을 했음을 의미한다.

72 prokaryotic genomes from KCTC

'72 prokaryotic genomes from KCTC'라는 제목은 정확하지 않다. 'Genome sequencing of 72 prokaryotic strains provided by KCTC'라고 하는 것이 더 나을 것이다.

2014년에 KRIBB에서 일루미나 플랫폼(HiSeq 2000, 2 x 101 nt cycle)으로 생산했던 72개 균주의 raw sequencing data를 10년이 지나서 K-BDS의 KRA section에 등록하고자 한다. 일부는 Genome Announcements류의 저널을 통해서 이미 공개가 되었다. 개인적인 경험으로는 다음과 같이 Acinetobacter baumannii의 99개 균주에 대한 일루미나 시퀀싱 결과(조립 포함)을 NCBI에 등록했던 것(PRJNA448358 - Multidrug resistant Acinetobacter baumannii strains isolated from blood of hospitalized patients)이 가장 큰 규모의 유전체 프로젝트였다.

이번 등록 작업은 워낙 다양한 종을 포함하고 있어서 쉽지는 않을 것이다. 뿐만 아니라 현재의 prokaryotic genome-based taxonomy에 맞게 이름을 잘 붙이는 일이 중요하다. 그리고 sequencing read에 대한 QC도 다시 한번 살펴 볼 것이다. 이에 대한 상세한 내용은 72 prokaryotic genomes에 기록한다. 2025년 1분기에 완료하는 것을 목표로 한다.

유전체를 기반으로 하는 prokaryote의 분석(특히 classification) 도구로는 다음과 같은 것이 유용하다. 일부는 local에 설치하여 쓸 수 있는 것도 있으니 잘 익혀 두도록 하자.

첫 실행에서 발생하는 NumPy 관련 에러 해결: https://forum.gtdb.ecogenomic.org/t/error-running-gtdb-tk-v2-1-1-attributeerror-module-numpy-has-no-attribute-bool/410/4