User Tools

Site Tools


bioinfo:72_prokaryotic_genomes

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
bioinfo:72_prokaryotic_genomes [2025/03/10 13:45] – [최종 정리] hyjeongbioinfo:72_prokaryotic_genomes [2025/03/10 14:43] (current) – [최종 정리] hyjeong
Line 1: Line 1:
 ====== 72 prokaryotic genomes ====== ====== 72 prokaryotic genomes ======
  
-이 작업의 이해를 돕기 위한 상위 페이지: [[bioinfo:k-bds|Korea BioData Station (K-BDS)]]+  * 이 작업의 이해를 돕기 위한 상위 페이지: [[bioinfo:k-bds|Korea BioData Station (K-BDS)]] 
 +  * 결말을 알고 싶다면 이 문서 맨 마지막 항목인 [[https://genoglobe.com/kribb/bioinfo/72_prokaryotic_genomes#최종_정리|최종 정리]]를 먼저 클릭하여 읽는 것을 권장함 
  
 당시 시퀀싱되었던 균주는 KCTC 번호가 부여된 것(대부분 표준균주)이 가장 많으며, 여기에는 DMSZ나 ATCC에서 들여와서 KCTC의 정식 컬렉션이 된 것도 있다. 샘플 ID를 '숫자' 또는 '숫자T'로 표기한 것은 KCTC 자원으로서 숫자는 KCTC 번호에 해당한다. 시퀀싱 대상에는 당시 KCTC 소속 연구자가 연구 과정을 통해 개별적으로 분리·동정한 것 또는 외부에서 입수한 것 소수를 포함한다. 이런 부류의 것은 대부분 공식 KCTC 컬렉션이 아니다.  당시 시퀀싱되었던 균주는 KCTC 번호가 부여된 것(대부분 표준균주)이 가장 많으며, 여기에는 DMSZ나 ATCC에서 들여와서 KCTC의 정식 컬렉션이 된 것도 있다. 샘플 ID를 '숫자' 또는 '숫자T'로 표기한 것은 KCTC 자원으로서 숫자는 KCTC 번호에 해당한다. 시퀀싱 대상에는 당시 KCTC 소속 연구자가 연구 과정을 통해 개별적으로 분리·동정한 것 또는 외부에서 입수한 것 소수를 포함한다. 이런 부류의 것은 대부분 공식 KCTC 컬렉션이 아니다. 
Line 283: Line 284:
   * 72개 샘플로 시퀀싱을 시작하였다. 이 중에서 10개는 KCTC의 공식적인 번호를 받지 못하였다. 공식 KCTC 균주라고 해서 2025년 1월 현재 전부 분양 가능한 것은 아니다. KCTC 균주가 아닌 다음의 3건, 즉  [[https://journals.asm.org/doi/10.1128/genomea.01358-14|HR7]]([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_000773685.1/|GCA_000773685.1]]), [[https://journals.asm.org/doi/10.1128/genomea.01357-14|HR18]]([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_000773675.1/|GCA_000773675.1]]), [[https://link.springer.com/article/10.1007/s10482-016-0810-6|32234(M12-1181)]]는 KRIBB 논문으로 발표되었다. 이 과정에서는 확실히 본 프로젝트의 raw data가 쓰였다. 세번째 논문에서는 표준균주인 M12-1144T의 유전체를 등록한 것으로 되어 있으나([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_001895205.1/|GCA_001895205.1, submitted by Chang, Y.H.]]), 72 prokaryotic genome 프로젝트와는 무관하다.    * 72개 샘플로 시퀀싱을 시작하였다. 이 중에서 10개는 KCTC의 공식적인 번호를 받지 못하였다. 공식 KCTC 균주라고 해서 2025년 1월 현재 전부 분양 가능한 것은 아니다. KCTC 균주가 아닌 다음의 3건, 즉  [[https://journals.asm.org/doi/10.1128/genomea.01358-14|HR7]]([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_000773685.1/|GCA_000773685.1]]), [[https://journals.asm.org/doi/10.1128/genomea.01357-14|HR18]]([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_000773675.1/|GCA_000773675.1]]), [[https://link.springer.com/article/10.1007/s10482-016-0810-6|32234(M12-1181)]]는 KRIBB 논문으로 발표되었다. 이 과정에서는 확실히 본 프로젝트의 raw data가 쓰였다. 세번째 논문에서는 표준균주인 M12-1144T의 유전체를 등록한 것으로 되어 있으나([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_001895205.1/|GCA_001895205.1, submitted by Chang, Y.H.]]), 72 prokaryotic genome 프로젝트와는 무관하다. 
   * 논문으로 발표된 것 3개 외에도 3810T([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_001650325.1/|GCF_001650325.1, submitted by Lim S.]])와 33142T([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_001742425.1/|GCA_001742425.1, submitted by Lim,S. and Kim,B.-C]]), 43059T([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_004916975.1/|GCA_004916975.1]])는 KRIBB에서 유전체 염기서열을 등록한 것으로 되어 있다. 이상의 조립물이 본 프로젝트의 일루미나 시퀀싱 raw data를 사용한 것이었는지는 아직 확인하지 못하였다. 최소한 43059T의  ([[https://www.microbiologyresearch.org/content/journal/ijsem/10.1099/ijsem.0.004707|KRIBB 주저자 논문]])에서 마크로젠을 통해 시퀀싱을 했다고 밝혔으므로 72 prokaryotic genomes project와는 무관하다.   * 논문으로 발표된 것 3개 외에도 3810T([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_001650325.1/|GCF_001650325.1, submitted by Lim S.]])와 33142T([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_001742425.1/|GCA_001742425.1, submitted by Lim,S. and Kim,B.-C]]), 43059T([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_004916975.1/|GCA_004916975.1]])는 KRIBB에서 유전체 염기서열을 등록한 것으로 되어 있다. 이상의 조립물이 본 프로젝트의 일루미나 시퀀싱 raw data를 사용한 것이었는지는 아직 확인하지 못하였다. 최소한 43059T의  ([[https://www.microbiologyresearch.org/content/journal/ijsem/10.1099/ijsem.0.004707|KRIBB 주저자 논문]])에서 마크로젠을 통해 시퀀싱을 했다고 밝혔으므로 72 prokaryotic genomes project와는 무관하다.
-  * **8개 샘플은 오염 또는 충분하지 않은 sequencing coverage**로 인하여 조립 결과물을 등록하기 곤란하다. Sequencing raw data는 잘못된 사례로서 등록할 수도 있겠으나, 이 경우 KRA data에 꼭 수반되어야 하는 BioSample 정보를 입력하기가 곤란하다. 차라리 GeNA로 등록하는 것이 나을 수도 있다. 여기에 해당하는 샘플 ID는 3520T, JCM15547T, 25222T, DSM1535T, 15166, KIM3, L16, Strain15의 8개이다. +  * **8개 샘플은 오염 또는 충분하지 않은 sequencing coverage**로 인하여 조립 결과물을 등록하기 곤란하다. Sequencing raw data는 잘못된 사례로서 등록할 수도 있겠으나, 이 경우 KRA data에 꼭 수반되어야 하는 BioSample 정보를 입력하기가 곤란하다. 차라리 GeNA로 등록하는 것이 나을 수도 있다. 여기에 해당하는 샘플 ID는 3520T, JCM15547T, 25222T, DSM1535T, 15166, KIM3, L16, Strain15의 8개이다. KIM3는 문제가 없음이 나중에 확인되어 KB03이라는 새로운 균주명으로 등록 예정이다.
   * 최소한 세 개의 샘플은 손으로 적은 균주 번호를 잘못 옮겨 적은 것 같다. 3843T(2843T가 맞을 것 같음), 8076T(3076T로 적은 곳도 있으나 9076T가 맞을 것 같음), 8738T(3738T가 맞는 것 같음)가 여기에 해당한다.   * 최소한 세 개의 샘플은 손으로 적은 균주 번호를 잘못 옮겨 적은 것 같다. 3843T(2843T가 맞을 것 같음), 8076T(3076T로 적은 곳도 있으나 9076T가 맞을 것 같음), 8738T(3738T가 맞는 것 같음)가 여기에 해당한다.
   * $$$$(ATCC $$$$$$, DSM $$$$$ 병기)는 KCTC에 존재하지 않는 균주임. 16S + GTDB-Tk 분석 결과는 ATCC $$$$$$, DSM $$$$와 일치함   * $$$$(ATCC $$$$$$, DSM $$$$$ 병기)는 KCTC에 존재하지 않는 균주임. 16S + GTDB-Tk 분석 결과는 ATCC $$$$$$, DSM $$$$와 일치함
Line 396: Line 397:
 {{ :bioinfo:sample_history.png?400 |}} {{ :bioinfo:sample_history.png?400 |}}
  
-실은 그 사이에 많은 실수가 있었다. 56개 샘플의 KRA 등록 후 검수를 기다리는 지금조차도 오타를 수정해야 할 것을 발견하였다. 1월부터 2월 23일까지 ZGA와 GTDB-Tk를 대충 10번 이상씩은 돌린 것 같다. 최종적으로 KAP241464로 등록하였다.+실은 그 사이에 많은 실수가 있었다. 56개 샘플의 KRA 등록 후 검수를 기다리는 지금조차도 오타를 수정해야 할 것을 발견하였다. 1월부터 2월 23일까지 ZGA와 GTDB-Tk를 대충 10번 이상씩은 돌린 것 같다. 최종적으로 KAP241464로 등록하였다. Low quality로 오해했다가 나중에 되살리게 된 KIM3(KB03으로 균주명 변경)은 2025년 3월 10일에 등록을 시작하였다.
 ==== KNA 등록 ==== ==== KNA 등록 ====
  
Line 410: Line 411:
      
 ===== 최종 정리 ===== ===== 최종 정리 =====
 +이 위키문서는 완벽하지 않다는 고백부터 하고 싶다. 완벽하게 설계한 계획에 따라 처음부터 끝까지 한번에 진행된 것이 아니기 때문이다. FASTQ raw data file에 포함된 오류, 프로그램 설치 오류 등이 중간에 발견되어 다시 처음으로 돌아간 일이 부지기수로 많았다. 예를 들어 GTDB-Tk는 1월 13일부터 3월 1일까지 총 11회를 실행하였다. 샘플의 이름이 바뀌고 quality 및 공개 여부에 따라 그룹이 바뀐 것도 많다. 따라서 가장 마지막에 위치한 이 섹션부터 읽는 것이 전체 상황을 파악하는데 더 도움이 될 수도 있다.
 +
 +  * Etc - [[https://kbds.re.kr/KAP241424|KAP241424]] Examples of low quality Illumina sequencing of prokaryotic genomes. 8 samples(이중에서 KIM3는 KB03으로 되살려서 KRA/KNA에 등록 중)
 +  * KRA - [[https://kbds.re.kr/KAP241464|KAP241464]] Genome sequencing of microbial strains collected by Korean Collection for Type Cultures (KCTC). 56 samples이며, 이에 대한 KNA 데이터는 검수 중
 +  * KRA - [[https://kbds.re.kr/KAP241474|KAP241474]] Methanobrevibacter smithii KB03 genome sequencing. 이어서 KNA 데이터 등록 예정
 +  * Label-sample mismatch가 있는 8건의 샘플은 등록하지 않음 
 +
 +5개의 바이오프로젝트 전체를 아우를 umbrella project를 등록할 예정이다. 그러나 적당한 title/project로 쓸 문구가 이제는 없다. 너무나 많은 프로젝트를 생성한 것이 잘못이다.
 + 
  
  
bioinfo/72_prokaryotic_genomes.1741581953.txt.gz · Last modified: 2025/03/10 13:45 by hyjeong