====== BioSample submission to K-BDS ====== 이 문서에서는 미생물(microbe) 샘플 다수를 한꺼번에 K-BDS의 BioSample에 등록하는 방법에 대해서 기술하고자 한다. 따라서 2024년 고도화 버전의 공개 이후 약간을 달라진 등록 웹사이트에서 정보를 하나씩 입력하는 방법이 아니라 엑셀 template file을 다운로드한 뒤 필요한 컬럼을 채워나가는 방법을 쓰는 것이 좋다. K-BDS 웹사이트의 support -> 자료실 -> [[https://kbds.re.kr/portal/board/ed607150170611ee8157141877507e8b/view/567|[자료] 2023년도 바이오 연구데이터 표준등록양식]]가 가장 중요한 정보이다. BioSample의 특성(attribute)는 총 74가지나 된다! 그러나 좌절할 것은 없다. 필수(M, mandatory) 입력항목 위주로 값을 채워 넣으면 되기 때문이다. 생물군(human, model organism or animal, invertebrate, plant, **microbe**, virus, clinical or host-associated pathogen, environmental/food/other pathogen, metagenome or environmental)에 따라서 필수 항목이 다름에 유의해야 한다. 필수 필드에 적절한 값을 채워넣기 어렵다면 missing value reporting라는 문자열을 넣는다. INSDC에서는 이에 대한 세부적인 사항도 기술하고 있다([[https://www.insdc.org/technical-specifications/missing-value-reporting/|링크]]). 이에 따르면 not applicable과 missing의 탑 레벨로 나눌 수 있고, missing은 다시 not collected, not provided, restricted access로 구분할 수 있다. 다음으로 중요한 것은 그룹(G) 필수 입력 항목이다. 동일 그룹에 속하는 항목은 그 중에서 어느 하나는 반드시 채워 넣어야 한다. 표준등록양식 문서 23쪽부터 나오는 큰 표에는 입력항목이 생물군에 따라서 M, G, O(optional, 선택) 중 어떻게 나뉘는지를 보여준다. Microbe의 경우 다음의 group 필수 입력 항목이 존재한다. host는 두 개 그룹에 속한다. 아래 목록에서 괄호 내 숫자는 표준등록양식 책자에서 보인 입력항목의 번호이고, 그 숫자 뒤의 문자열은 엑셀 template file의 컬럼 라벨이다. * Source group: (30-P) host_숙주, (41_T) isolation source_분리 소스 * Organism group: (41-S) isolate, (67-AF) strain_균주, 계통 * Host group: (30-G) host_숙주 BioSample 등록 웹사이트에서 내려받는 엑셀 파일에는 국문으로 항목명이 적혀 있는데, 이것이 위에서 보인 것과 약간 달라서 혼동을 불러일으킨다. 예를 들어 isolate는 '샘플 유래 생물'로, '분리 소스'는 '샘플 유래 생물의 출처'라고 해 놓았기 때문이다. 더군다나 동일한 그룹에 속하는 컬럼을 붙여놓지도 않았다. Host group도 혼동을 초래하기 쉽다. 왜냐하면 Microbe 생물군에서는 'host' 말고는 다른 입력항목이 없으며, host를 정의하는 것이 불가능한 미생물도 얼마든지 있기 때문이다. 2024년 고도화가 반영된 [[https://kbds.re.kr/BioSample/submit|BioSample 등록 웹페이지]]에서는 입력 항목의 종류를 대화식으로 고를 수 있게 만들어 두었기 때문에 row(개별 바이오샘플)의 수가 적다면 기능을 조금만 익히면 편리하게 입력할 수 있을 것 같다. ===== 입력의 실제 사례 ===== Culture collection에서 자원 분리에 대한 적지 않은 정보를 제공하므로 잘 확인한다. DSMZ가 비교적 충실하게 기본 정보를 많이 제공한다. 특히 DSMZ에서는 country 정보가 없는 경우 'country of origin unknown'라고 철저하게 적어 놓는 편이다. - 첫 두 컬럼인 **(A)생물군 종류**(= Microbe), **(B)샘플명**은 전부 채우도록 한다. 여기서의 샘플명은 나중에 입력하게 될 데이터의 연결 고리가 되므로 서로 일치해야 한다. - **(E)생물질 제공자**, **(H)수집일자**는 필수 항목이므로 채울 값이 없는 경우 'missing value reporting'으로라도 채워야 한다. - **(N)지리적 장소**도 필수 항목이다. INSDC에서 정의한 [[https://www.insdc.org/submitting-standards/geo_loc_name-qualifier-vocabulary/|지역명]]을 참조하여 기입하되 적당한 값이 없으면 'missing value reporting'으로라도 채워야 한다. - 다음으로 중요한 정보는 **(T)샘플 유래 생물의 출처**이다. 이것은 **(P)숙주**와 함께 source group을 이루므로 둘 중 어느 하나는 채워야 한다. - **(G)숙주** 정보가 있다면 완전한 분류명으로 추가하라. - 다음으로 중요한 정보는 **(S)샘플 유래 생물**(구 isolate)와 **(AF)균주, 계통**이다. 이들은 organism group을 이룬다. 균주, 계통 항목이 수집되지 않는 경우는 거의 없으니 이 group을 채우지 못할 걱정을 할 필요는 없을 것이다. 추가 정보가 있다면 샘플 유래 생물을 채운다. - **(M)표본 식별자(specimen voucher)**가 필수 입력 항목인 것에 대해 나는 부정적인 입장이다. NCBI가 제공하는 BioSample의 [[https://www.ncbi.nlm.nih.gov/biosample/docs/attributes/|attribute]] 설명에서는 'Intended as a reference to the physical specimen that remains after it was analyzed.'라고 하였다. 미생물 시료라면 KCTC:12345와 같은 방식으로 적는 것이 일반적인데([[https://www.insdc.org/submitting-standards/controlled-vocabulary-specimenvoucher-qualifier/|controlled vocabulary]]), 항상 제공 가능한 상태로 시료가 남아있는 것은 아니기 때문이다. ===== 자원은행에서 분양받은 균주를 이용한 경우 ===== KCTC, ATCC, DSMZ, JCM, KMM 등의 culture collection(미생물은행, 약자 설명에 대해서는 [[https://jcm.brc.riken.jp/en/abbr_e|acronyms of other culture collections]]을 참조)에서 분양받은 균주를 이용하여 실험을 한 뒤 그 데이터를 BioSample에 등록하는 경우를 가정해 보자. 그러한 경우 (3-F) biomaterial provider_생물질제공자와 (65-AE) specimen voucher_표본 식별자 항목에 KCTC 번호만 기입해 놓고 분리 또는 숙주 관련 정보는 입력하지 않아도 좋은가? 사실 그 미생물을 자연계에서 분리한 것은 내가 아니기 때문에 대충 그렇게 처리해도 될 것 같은 생각은 든다. 이러한 정보가 필요하다면 미생물은행 웹사이트에 가서 살펴보거나, 거기에 나온 참고문헌(신종 보고 논문 등)을 찾으면 되니까 말이다. 하지만 BioSample 정보를 열람할 다른 사용자를 생각한다면 조금 수고스럽더라도 다른 정보를 기입해 주는 것이 좋을 것이다.