Differences

This shows you the differences between two versions of the page.

--- bioinfo:72_prokaryotic_genomes [2025/02/24 17:13] – [k-mer analysis] hyjeong
+++ bioinfo:72_prokaryotic_genomes [2025/03/10 14:43] (current) – [최종 정리] hyjeong
@@ Line 1: / Line 1: @@
 ====== 72 prokaryotic genomes ======
-이 작업의 이해를 돕기 위한 상위 페이지: [[bioinfo:k-bds|Korea BioData Station (K-BDS)]]
+  * 이 작업의 이해를 돕기 위한 상위 페이지: [[bioinfo:k-bds|Korea BioData Station (K-BDS)]]
+  * 결말을 알고 싶다면 이 문서 맨 마지막 항목인 [[https://genoglobe.com/kribb/bioinfo/72_prokaryotic_genomes#최종_정리|최종 정리]]를 먼저 클릭하여 읽는 것을 권장함
 당시 시퀀싱되었던 균주는 KCTC 번호가 부여된 것(대부분 표준균주)이 가장 많으며, 여기에는 DMSZ나 ATCC에서 들여와서 KCTC의 정식 컬렉션이 된 것도 있다. 샘플 ID를 '숫자' 또는 '숫자T'로 표기한 것은 KCTC 자원으로서 숫자는 KCTC 번호에 해당한다. 시퀀싱 대상에는 당시 KCTC 소속 연구자가 연구 과정을 통해 개별적으로 분리·동정한 것 또는 외부에서 입수한 것 소수를 포함한다. 이런 부류의 것은 대부분 공식 KCTC 컬렉션이 아니다.
@@ Line 29: / Line 30: @@
 아무런 전처리를 하지 않은 read에 대하여 사전 점검을 실시한다.
 ==== k-mer analysis ====
-interleaved fastq file(sample.pe.fq)로 전환한 뒤 jellyfish(k-mer length: 21)에서 분석을 해 둔 히스토그램이 있어서 이를 plot하였다. Interleaved fastq file로부터 전체 과정을 다시 진행하려면 [[https://github.com/gmarcais/Jellyfish/blob/master/doc/Readme.md|jellyfish README]]를 참고하여 다음과 같이 진행한다.
+interleaved fastq file(sample.pe.fq)로 전환한 뒤 jellyfish(k-mer length: 21)에서 분석을 해 둔 히스토그램이 있어서 이를 plot하였다. Interleaved fastq file로부터 전체 과정을 다시 진행하려면 [[https://github.com/gmarcais/Jellyfish/blob/master/doc/Readme.md|jellyfish README]]를 참고하여 다음과 같이 진행한다. 'jellyfish count'와 'jellyfish histo' 명령을 거쳐서 만들어지는 히스토그램 파일을 이용하여 gnuplot으로 그림을 그리는 것이다.
   for x in *pe.fq
@@ Line 37: / Line 38: @@
     jellyfish count -m 21 -s 100M -t 12 -C $x.pe.fq -o $x.counts.jf
     jellyfish histo -o $x.jf.hist $x.counts.jf
-    x=${x%%.counts.jf}
+    echo Running gnuplot...
     echo set term png > $x.jf.gp
     echo set output \"$x.jf.png\" >> $x.jf.gp
@@ Line 73: / Line 74: @@
 ===== Assembly =====
 ==== De novo assembly assembly ====
-Tosten Seemann의 [[https://github.com/tseemann/shovill|Shovill]]과 [[https://github.com/laxeye/zga|ZGA]] 중에서 저울질을 하다가 후자를 택하였다. 이는 이미 conda zga environment로 설치가 되어 있으며, 오늘(2025-01-07) 업데이트하였다. Assembler로는 default(unicycler v0.5.0)를 사용하게 하였다. ZGA는 CheckM에 의한 genome completness/contamination/heterogeneity 점검을 해 주므로 매우 유용하다. k-mer analysis로는 오염 정도를 정성적으로 파악할 수 있지만, CheckM은 이를 수치로 나타내어 준다. [[https://pmc.ncbi.nlm.nih.gov/articles/PMC10963913/|Update on the proposed minimal standards for the use of genome data for the taxonomy of prokaryotes(IJSEM 2024)]]에 의하면, completeness > 90%, contamination< 5%를 high quality genome으로 간주한다. zga 옵션 중에서 %%--%%minimum-contig-length ###은 genome assembly 결과물이 아니라 annotation으로 진행되는 서열에 대한 한계치이다. 따라서 *.fasta 결과물에는 짧은 contig가 그대로 있으니 주의가 필요하다. 길이로 정렬되어 있는 것은 매우 다행이다.
+Tosten Seemann의 [[https://github.com/tseemann/shovill|Shovill]]과 [[https://github.com/laxeye/zga|ZGA]] 중에서 저울질을 하다가 후자를 택하였다. 이는 이미 conda zga environment로 설치가 되어 있으며, 오늘(2025-01-07) 업데이트하였다. Assembler로는 default(unicycler v0.5.0)를 사용하게 하였다. ZGA는 CheckM에 의한 genome completness/contamination/heterogeneity 점검을 해 주므로 매우 유용하다. k-mer analysis로는 오염 정도를 정성적으로 파악할 수 있지만, CheckM은 이를 수치로 나타내어 준다. [[https://pmc.ncbi.nlm.nih.gov/articles/PMC10963913/|Update on the proposed minimal standards for the use of genome data for the taxonomy of prokaryotes(IJSEM 2024)]]에 의하면, completeness > 90%, contamination< 5%를 high quality genome으로 간주한다. zga 옵션 중에서 %%--%%minimum-contig-length ###은 genome assembly 결과물이 아니라 annotation으로 진행되는 서열에 대한 한계치이다. 따라서 *.fasta 결과물에는 짧은 contig가 그대로 있으니 주의가 필요하다. 길이로 정렬되어 있는 것은 매우 다행이다. 또한 genome QC check를 위한 마커 유전자 셋은 기본이 bacteria로 되어 있으므로, 고세균의 경우 %%--%%domain archaea 옵션을 주어야 한다. 다시 말해서 이 정보는 사전에 알고 있어야 한다는 뜻이다.
   (작업장) ${BASE_DIR}/05_zga_assembly
@@ Line 249: / Line 250: @@
   (gtdbtk-2.1.1) $
-그런데 웹사이트에서 안내한 최신 reference DB 파일은 하나로 묶인 것이 아니었다. 따라서 [[https://github.com/bioconda/bioconda-recipes/blob/master/recipes/gtdbtk/download-db.sh|download-db.sh]]를 이용할 수밖에 없었다. 뭐 이래!!
+그런데 웹사이트에서 안내한 최신 reference DB 파일은 하나로 묶인 것이 아니었다(잘 찾아보면 어딘가 숨어 있음). 따라서 [[https://github.com/bioconda/bioconda-recipes/blob/master/recipes/gtdbtk/download-db.sh|download-db.sh]]를 이용할 수밖에 없었다. 뭐 이래!! 설치 후 발생한 분석 오류 및 해결 방법은 별도로 작성한 글 [[https://blog.genoglobe.com/2025/02/gtdb-tk-reference-database-release-220.html|GTDB-Tk의 reference database를 release 220으로 업데이트한 뒤 발생하는 'Reference genome missing from FastANI database' 에러 해결하기]]에 상세히 기록하였다.
@@ Line 283: / Line 284: @@
   * 72개 샘플로 시퀀싱을 시작하였다. 이 중에서 10개는 KCTC의 공식적인 번호를 받지 못하였다. 공식 KCTC 균주라고 해서 2025년 1월 현재 전부 분양 가능한 것은 아니다. KCTC 균주가 아닌 다음의 3건, 즉  [[https://journals.asm.org/doi/10.1128/genomea.01358-14|HR7]]([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_000773685.1/|GCA_000773685.1]]), [[https://journals.asm.org/doi/10.1128/genomea.01357-14|HR18]]([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_000773675.1/|GCA_000773675.1]]), [[https://link.springer.com/article/10.1007/s10482-016-0810-6|32234(M12-1181)]]는 KRIBB 논문으로 발표되었다. 이 과정에서는 확실히 본 프로젝트의 raw data가 쓰였다. 세번째 논문에서는 표준균주인 M12-1144T의 유전체를 등록한 것으로 되어 있으나([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_001895205.1/|GCA_001895205.1, submitted by Chang, Y.H.]]), 72 prokaryotic genome 프로젝트와는 무관하다.
   * 논문으로 발표된 것 3개 외에도 3810T([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_001650325.1/|GCF_001650325.1, submitted by Lim S.]])와 33142T([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_001742425.1/|GCA_001742425.1, submitted by Lim,S. and Kim,B.-C]]), 43059T([[https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_004916975.1/|GCA_004916975.1]])는 KRIBB에서 유전체 염기서열을 등록한 것으로 되어 있다. 이상의 조립물이 본 프로젝트의 일루미나 시퀀싱 raw data를 사용한 것이었는지는 아직 확인하지 못하였다. 최소한 43059T의  ([[https://www.microbiologyresearch.org/content/journal/ijsem/10.1099/ijsem.0.004707|KRIBB 주저자 논문]])에서 마크로젠을 통해 시퀀싱을 했다고 밝혔으므로 72 prokaryotic genomes project와는 무관하다.
-  * **8개 샘플은 오염 또는 충분하지 않은 sequencing coverage**로 인하여 조립 결과물을 등록하기 곤란하다. Sequencing raw data는 잘못된 사례로서 등록할 수도 있겠으나, 이 경우 KRA data에 꼭 수반되어야 하는 BioSample 정보를 입력하기가 곤란하다. 차라리 GeNA로 등록하는 것이 나을 수도 있다. 여기에 해당하는 샘플 ID는 3520T, JCM15547T, 25222T, DSM1535T, 15166, KIM3, L16, Strain15의 8개이다.
+  * **8개 샘플은 오염 또는 충분하지 않은 sequencing coverage**로 인하여 조립 결과물을 등록하기 곤란하다. Sequencing raw data는 잘못된 사례로서 등록할 수도 있겠으나, 이 경우 KRA data에 꼭 수반되어야 하는 BioSample 정보를 입력하기가 곤란하다. 차라리 GeNA로 등록하는 것이 나을 수도 있다. 여기에 해당하는 샘플 ID는 3520T, JCM15547T, 25222T, DSM1535T, 15166, KIM3, L16, Strain15의 8개이다. KIM3는 문제가 없음이 나중에 확인되어 KB03이라는 새로운 균주명으로 등록 예정이다.
   * 최소한 세 개의 샘플은 손으로 적은 균주 번호를 잘못 옮겨 적은 것 같다. 3843T(2843T가 맞을 것 같음), 8076T(3076T로 적은 곳도 있으나 9076T가 맞을 것 같음), 8738T(3738T가 맞는 것 같음)가 여기에 해당한다.
   * $$$$(ATCC $$$$$$, DSM $$$$$ 병기)는 KCTC에 존재하지 않는 균주임. 16S + GTDB-Tk 분석 결과는 ATCC $$$$$$, DSM $$$$와 일치함
@@ Line 293: / Line 294: @@
 ==== 8개 low quality genomes - K-BDS에 가장 먼저 등록 ====
-K-BDS에 'Examples of low quality Illumina sequencing of prokaryotic genomes'라는 바이오프로젝트[[https://kbds.re.kr/KAP241424|KAP241424]]로 등록하였다. NGS sequencing raw data만 등록한다면 KRA 데이터 타입이 맞겠지만, (1) 일부 오염된 샘플 때문에 의미 있는 BioSample을 정의하기 어렵고, (2) fastq file뿐만 아니라 QC 결과와 조립 결과물 등 다양한 파일을 서브디렉토리별로 나누어 담은 구조이기 때문에 기타 데이터 타입으로 등록하는 것이 가장 적당하다고 생각하였다. 등록한 파일에 대한 상세한 설명 및 분석(QC) 과정은 {{:bioinfo:readme.pdf |README 파일}}에 상세하게 설명하였다.
+K-BDS에 'Examples of low quality Illumina sequencing of prokaryotic genomes'라는 바이오프로젝트[[https://kbds.re.kr/KAP241424|KAP241424]]로 등록하였다. NGS sequencing raw data만 등록한다면 KRA 데이터 타입이 맞겠지만, (1) 일부 오염된 샘플 때문에 의미 있는 BioSample을 정의하기 어렵고, (2) fastq file뿐만 아니라 QC 결과와 조립 결과물 등 다양한 파일을 서브디렉토리별로 나누어 담은 구조이기 때문에 기타 데이터 타입으로 등록하는 것이 가장 적당하다고 생각하였다. 등록한 파일에 대한 상세한 설명 및 분석(QC) 과정은 {{ :bioinfo:readme_v3.pdf |README file version 3}}에 상세하게 설명하였다.
 ==== Probable incorrect labels (and others) ====
@@ Line 390: / Line 391: @@
-관계자들에게 요청하여 최대한 많은 균주의 유전체 정보를 공개하는 것으로 가닥을 잡아 나가고 있다. 현재 분양 가능성은 중요하지 않다. 10년 전에 균주를 제공하였던 자원은행이 지금 더 이상 서비스를 하지 않는다고 해서 당시 적법하게 구입한 균주의 유전체 연구 성과물을 K-BDS에 등록하지 못하는 것은 말이 되지 않기 때문이다({{:bioinfo:20250219_56_biosample_metadata.xlsx|바이오샘플 56건의 메타데이터 파일}}, {{:bioinfo:20250219_56_kra_metadata.xlsx|KRA의 메타데이터 파일}})
+관계자들에게 요청하여 최대한 많은 균주의 유전체 정보를 공개하는 것으로 가닥을 잡아 나가고 있다. 현재 분양 가능성은 중요하지 않다. 10년 전에 균주를 제공하였던 자원은행이 지금 더 이상 서비스를 하지 않는다고 해서 당시 적법하게 구입한 균주의 유전체 연구 성과물을 K-BDS에 등록하지 못하는 것은 말이 되지 않기 때문이다.
 균주를 처음에 제공했던 사람과 KCTC의 협조를 얻어서 56개 정보를 전부 등록하여 공개하는 것으로 합의하였다. 그 과정에서 KCTC에 공식적으로 기탁된 균주 자원이 비공개 상태로 있다가 공개로 전환된 것이 몇 개 있어서 큰 보람을 느낀다.
@@ Line 396: / Line 397: @@
 {{ :bioinfo:sample_history.png?400 |}}
-실은 그 사이에 많은 실수가 있었다. 56개 샘플의 KRA 등록 후 검수를 기다리는 지금조차도 오타를 수정해야 할 것을 발견하였다. 1월부터 2월 23일까지 ZGA와 GTDB-Tk를 대충 10번 이상씩은 돌린 것 같다.
+실은 그 사이에 많은 실수가 있었다. 56개 샘플의 KRA 등록 후 검수를 기다리는 지금조차도 오타를 수정해야 할 것을 발견하였다. 1월부터 2월 23일까지 ZGA와 GTDB-Tk를 대충 10번 이상씩은 돌린 것 같다. 최종적으로 KAP241464로 등록하였다. Low quality로 오해했다가 나중에 되살리게 된 KIM3(KB03으로 균주명 변경)은 2025년 3월 10일에 등록을 시작하였다.
 ==== KNA 등록 ====
@@ Line 406: / Line 407: @@
   find fasta_250223_170/ -type f > list_250223.106
   ./ezTree_hyjeong -list list_250223.106 -out run_250223 -thread 30 &
+그러나 이는 매우 미련한 시도였다고 생각한다. 잘 알려진 core gene set을 이용하는 것이 훨씬 바람직하다. 예를 들어 VBCG(20 validated bacterial core genes for phylogenomic analysis with high fidelity and resolution - [[https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-023-01705-9|2023년 논문]], [[https://github.com/tianrenmaogithub/vbcg|GitHub]])을 설치하여 분석하는 것이 훨씬 바람직하다.
+===== 최종 정리 =====
+이 위키문서는 완벽하지 않다는 고백부터 하고 싶다. 완벽하게 설계한 계획에 따라 처음부터 끝까지 한번에 진행된 것이 아니기 때문이다. FASTQ raw data file에 포함된 오류, 프로그램 설치 오류 등이 중간에 발견되어 다시 처음으로 돌아간 일이 부지기수로 많았다. 예를 들어 GTDB-Tk는 1월 13일부터 3월 1일까지 총 11회를 실행하였다. 샘플의 이름이 바뀌고 quality 및 공개 여부에 따라 그룹이 바뀐 것도 많다. 따라서 가장 마지막에 위치한 이 섹션부터 읽는 것이 전체 상황을 파악하는데 더 도움이 될 수도 있다.
+  * Etc - [[https://kbds.re.kr/KAP241424|KAP241424]] Examples of low quality Illumina sequencing of prokaryotic genomes. 8 samples(이중에서 KIM3는 KB03으로 되살려서 KRA/KNA에 등록 중)
+  * KRA - [[https://kbds.re.kr/KAP241464|KAP241464]] Genome sequencing of microbial strains collected by Korean Collection for Type Cultures (KCTC). 56 samples이며, 이에 대한 KNA 데이터는 검수 중
+  * KRA - [[https://kbds.re.kr/KAP241474|KAP241474]] Methanobrevibacter smithii KB03 genome sequencing. 이어서 KNA 데이터 등록 예정
+  * Label-sample mismatch가 있는 8건의 샘플은 등록하지 않음
+개의 바이오프로젝트 전체를 아우를 umbrella project를 등록할 예정이다. 그러나 적당한 title/project로 쓸 문구가 이제는 없다. 너무나 많은 프로젝트를 생성한 것이 잘못이다.