User Tools

Site Tools


bioinfo:biosample_submission_to_k-bds

This is an old revision of the document!


BioSample submission to K-BDS

이 문서에서는 미생물(microbe) 샘플 다수를 한꺼번에 K-BDS의 BioSample에 등록하는 방법에 대해서 기술하고자 한다. 따라서 2024년 고도화 버전의 공개 이후 약간을 달라진 등록 웹사이트에서 정보를 하나씩 입력하는 방법이 아니라 엑셀 template file을 다운로드한 뒤 필요한 컬럼을 채워나가는 방법을 쓰는 것이 좋다. K-BDS 웹사이트의 support → 자료실 → [자료] 2023년도 바이오 연구데이터 표준등록양식가 가장 중요한 정보이다.

BioSample의 특성(attribute)는 총 74가지나 된다! 그러나 좌절할 것은 없다. 필수(M, mandatory) 입력항목 위주로 값을 채워 넣으면 되기 때문이다. 생물군(human, model organism or animal, invertebrate, plant, microbe, virus, clinical or host-associated pathogen, environmental/food/other pathogen, metagenome or environmental)에 따라서 필수 항목이 다름에 유의해야 한다.

필수 필드에 적절한 값을 채워넣기 어렵다면 missing value reporting라는 문자열을 넣는다. INSDC에서는 이에 대한 세부적인 사항도 기술하고 있다(링크). 이에 따르면 not applicable과 missing의 탑 레벨로 나눌 수 있고, missing은 다시 not collected, not provided, restricted access로 구분할 수 있다.

다음으로 중요한 것은 그룹(G) 필수 입력 항목이다. 동일 그룹에 속하는 항목은 그 중에서 어느 하나는 반드시 채워 넣어야 한다. 표준등록양식 문서 23쪽부터 나오는 큰 표에는 입력항목이 생물군에 따라서 M, G, O(optional, 선택) 중 어떻게 나뉘는지를 보여준다. Microbe의 경우 다음의 group 필수 입력 항목이 존재한다. host는 두 개 그룹에 속한다.

  • Source group: (30) host_숙주, (41) isolation source_분리 소스
  • Organism group: (41) isolate, (67) strain_균주, 계통
  • Host group: (30) host_숙주

BioSample 등록 웹사이트에서 내려받는 엑셀 파일에는 국문으로 항목명이 적혀 있는데, 이것이 위에서 보인 것과 약간 달라서 혼동을 불러일으킨다. 예를 들어 isolate는 '샘플 유래 생물'로, '분리 소스'는 '샘플 유래 생물의 출처'라고 해 놓았기 때문이다. 더군다나 동일한 그룹에 속하는 컬럼을 붙여놓지도 않았다. Host group도 혼동을 초래하기 쉽다. 왜냐하면 Microbe 생물군에서는 'host' 말고는 다른 입력항목이 없으며, host를 정의하는 것이 불가능한 미생물도 얼마든지 있기 때문이다.

bioinfo/biosample_submission_to_k-bds.1737690637.txt.gz · Last modified: 2025/01/24 12:50 by hyjeong