bioinfo:72_prokaryotic_genomes
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
bioinfo:72_prokaryotic_genomes [2025/02/24 17:13] – [k-mer analysis] hyjeong | bioinfo:72_prokaryotic_genomes [2025/03/10 14:43] (current) – [최종 정리] hyjeong | ||
---|---|---|---|
Line 1: | Line 1: | ||
====== 72 prokaryotic genomes ====== | ====== 72 prokaryotic genomes ====== | ||
- | 이 작업의 이해를 돕기 위한 상위 페이지: [[bioinfo: | + | * 이 작업의 이해를 돕기 위한 상위 페이지: [[bioinfo: |
+ | * 결말을 알고 싶다면 이 문서 맨 마지막 항목인 [[https:// | ||
당시 시퀀싱되었던 균주는 KCTC 번호가 부여된 것(대부분 표준균주)이 가장 많으며, 여기에는 DMSZ나 ATCC에서 들여와서 KCTC의 정식 컬렉션이 된 것도 있다. 샘플 ID를 ' | 당시 시퀀싱되었던 균주는 KCTC 번호가 부여된 것(대부분 표준균주)이 가장 많으며, 여기에는 DMSZ나 ATCC에서 들여와서 KCTC의 정식 컬렉션이 된 것도 있다. 샘플 ID를 ' | ||
Line 29: | Line 30: | ||
아무런 전처리를 하지 않은 read에 대하여 사전 점검을 실시한다. | 아무런 전처리를 하지 않은 read에 대하여 사전 점검을 실시한다. | ||
==== k-mer analysis ==== | ==== k-mer analysis ==== | ||
- | interleaved fastq file(sample.pe.fq)로 전환한 뒤 jellyfish(k-mer length: 21)에서 분석을 해 둔 히스토그램이 있어서 이를 plot하였다. Interleaved fastq file로부터 전체 과정을 다시 진행하려면 [[https:// | + | interleaved fastq file(sample.pe.fq)로 전환한 뒤 jellyfish(k-mer length: 21)에서 분석을 해 둔 히스토그램이 있어서 이를 plot하였다. Interleaved fastq file로부터 전체 과정을 다시 진행하려면 [[https:// |
for x in *pe.fq | for x in *pe.fq | ||
Line 37: | Line 38: | ||
jellyfish count -m 21 -s 100M -t 12 -C $x.pe.fq -o $x.counts.jf | jellyfish count -m 21 -s 100M -t 12 -C $x.pe.fq -o $x.counts.jf | ||
jellyfish histo -o $x.jf.hist $x.counts.jf | jellyfish histo -o $x.jf.hist $x.counts.jf | ||
- | | + | |
echo set term png > $x.jf.gp | echo set term png > $x.jf.gp | ||
echo set output \" | echo set output \" | ||
Line 73: | Line 74: | ||
===== Assembly ===== | ===== Assembly ===== | ||
==== De novo assembly assembly ==== | ==== De novo assembly assembly ==== | ||
- | Tosten Seemann의 [[https:// | + | Tosten Seemann의 [[https:// |
(작업장) ${BASE_DIR}/ | (작업장) ${BASE_DIR}/ | ||
Line 249: | Line 250: | ||
(gtdbtk-2.1.1) $ | (gtdbtk-2.1.1) $ | ||
| | ||
- | 그런데 웹사이트에서 안내한 최신 reference DB 파일은 하나로 묶인 것이 아니었다. 따라서 [[https:// | + | 그런데 웹사이트에서 안내한 최신 reference DB 파일은 하나로 묶인 것이 아니었다(잘 찾아보면 어딘가 숨어 있음). 따라서 [[https:// |
Line 283: | Line 284: | ||
* 72개 샘플로 시퀀싱을 시작하였다. 이 중에서 10개는 KCTC의 공식적인 번호를 받지 못하였다. 공식 KCTC 균주라고 해서 2025년 1월 현재 전부 분양 가능한 것은 아니다. KCTC 균주가 아닌 다음의 3건, 즉 [[https:// | * 72개 샘플로 시퀀싱을 시작하였다. 이 중에서 10개는 KCTC의 공식적인 번호를 받지 못하였다. 공식 KCTC 균주라고 해서 2025년 1월 현재 전부 분양 가능한 것은 아니다. KCTC 균주가 아닌 다음의 3건, 즉 [[https:// | ||
* 논문으로 발표된 것 3개 외에도 3810T([[https:// | * 논문으로 발표된 것 3개 외에도 3810T([[https:// | ||
- | * **8개 샘플은 오염 또는 충분하지 않은 sequencing coverage**로 인하여 조립 결과물을 등록하기 곤란하다. Sequencing raw data는 잘못된 사례로서 등록할 수도 있겠으나, | + | * **8개 샘플은 오염 또는 충분하지 않은 sequencing coverage**로 인하여 조립 결과물을 등록하기 곤란하다. Sequencing raw data는 잘못된 사례로서 등록할 수도 있겠으나, |
* 최소한 세 개의 샘플은 손으로 적은 균주 번호를 잘못 옮겨 적은 것 같다. 3843T(2843T가 맞을 것 같음), 8076T(3076T로 적은 곳도 있으나 9076T가 맞을 것 같음), 8738T(3738T가 맞는 것 같음)가 여기에 해당한다. | * 최소한 세 개의 샘플은 손으로 적은 균주 번호를 잘못 옮겨 적은 것 같다. 3843T(2843T가 맞을 것 같음), 8076T(3076T로 적은 곳도 있으나 9076T가 맞을 것 같음), 8738T(3738T가 맞는 것 같음)가 여기에 해당한다. | ||
* $$$$(ATCC $$$$$$, DSM $$$$$ 병기)는 KCTC에 존재하지 않는 균주임. 16S + GTDB-Tk 분석 결과는 ATCC $$$$$$, DSM $$$$와 일치함 | * $$$$(ATCC $$$$$$, DSM $$$$$ 병기)는 KCTC에 존재하지 않는 균주임. 16S + GTDB-Tk 분석 결과는 ATCC $$$$$$, DSM $$$$와 일치함 | ||
Line 293: | Line 294: | ||
==== 8개 low quality genomes - K-BDS에 가장 먼저 등록 ==== | ==== 8개 low quality genomes - K-BDS에 가장 먼저 등록 ==== | ||
- | K-BDS에 ' | + | K-BDS에 ' |
==== Probable incorrect labels (and others) ==== | ==== Probable incorrect labels (and others) ==== | ||
Line 390: | Line 391: | ||
- | 관계자들에게 요청하여 최대한 많은 균주의 유전체 정보를 공개하는 것으로 가닥을 잡아 나가고 있다. 현재 분양 가능성은 중요하지 않다. 10년 전에 균주를 제공하였던 자원은행이 지금 더 이상 서비스를 하지 않는다고 해서 당시 적법하게 구입한 균주의 유전체 연구 성과물을 K-BDS에 등록하지 못하는 것은 말이 되지 않기 때문이다({{: | + | 관계자들에게 요청하여 최대한 많은 균주의 유전체 정보를 공개하는 것으로 가닥을 잡아 나가고 있다. 현재 분양 가능성은 중요하지 않다. 10년 전에 균주를 제공하였던 자원은행이 지금 더 이상 서비스를 하지 않는다고 해서 당시 적법하게 구입한 균주의 유전체 연구 성과물을 K-BDS에 등록하지 못하는 것은 말이 되지 않기 때문이다. |
균주를 처음에 제공했던 사람과 KCTC의 협조를 얻어서 56개 정보를 전부 등록하여 공개하는 것으로 합의하였다. 그 과정에서 KCTC에 공식적으로 기탁된 균주 자원이 비공개 상태로 있다가 공개로 전환된 것이 몇 개 있어서 큰 보람을 느낀다. | 균주를 처음에 제공했던 사람과 KCTC의 협조를 얻어서 56개 정보를 전부 등록하여 공개하는 것으로 합의하였다. 그 과정에서 KCTC에 공식적으로 기탁된 균주 자원이 비공개 상태로 있다가 공개로 전환된 것이 몇 개 있어서 큰 보람을 느낀다. | ||
Line 396: | Line 397: | ||
{{ : | {{ : | ||
- | 실은 그 사이에 많은 실수가 있었다. 56개 샘플의 KRA 등록 후 검수를 기다리는 지금조차도 오타를 수정해야 할 것을 발견하였다. 1월부터 2월 23일까지 ZGA와 GTDB-Tk를 대충 10번 이상씩은 돌린 것 같다. | + | 실은 그 사이에 많은 실수가 있었다. 56개 샘플의 KRA 등록 후 검수를 기다리는 지금조차도 오타를 수정해야 할 것을 발견하였다. 1월부터 2월 23일까지 ZGA와 GTDB-Tk를 대충 10번 이상씩은 돌린 것 같다. 최종적으로 KAP241464로 등록하였다. Low quality로 오해했다가 나중에 되살리게 된 KIM3(KB03으로 균주명 변경)은 2025년 3월 10일에 등록을 시작하였다. |
==== KNA 등록 ==== | ==== KNA 등록 ==== | ||
Line 406: | Line 407: | ||
find fasta_250223_170/ | find fasta_250223_170/ | ||
./ | ./ | ||
+ | |||
+ | 그러나 이는 매우 미련한 시도였다고 생각한다. 잘 알려진 core gene set을 이용하는 것이 훨씬 바람직하다. 예를 들어 VBCG(20 validated bacterial core genes for phylogenomic analysis with high fidelity and resolution - [[https:// | ||
+ | | ||
+ | ===== 최종 정리 ===== | ||
+ | 이 위키문서는 완벽하지 않다는 고백부터 하고 싶다. 완벽하게 설계한 계획에 따라 처음부터 끝까지 한번에 진행된 것이 아니기 때문이다. FASTQ raw data file에 포함된 오류, 프로그램 설치 오류 등이 중간에 발견되어 다시 처음으로 돌아간 일이 부지기수로 많았다. 예를 들어 GTDB-Tk는 1월 13일부터 3월 1일까지 총 11회를 실행하였다. 샘플의 이름이 바뀌고 quality 및 공개 여부에 따라 그룹이 바뀐 것도 많다. 따라서 가장 마지막에 위치한 이 섹션부터 읽는 것이 전체 상황을 파악하는데 더 도움이 될 수도 있다. | ||
+ | |||
+ | * Etc - [[https:// | ||
+ | * KRA - [[https:// | ||
+ | * KRA - [[https:// | ||
+ | * Label-sample mismatch가 있는 8건의 샘플은 등록하지 않음 | ||
+ | |||
+ | 5개의 바이오프로젝트 전체를 아우를 umbrella project를 등록할 예정이다. 그러나 적당한 title/ | ||
+ | |||
+ | |||
bioinfo/72_prokaryotic_genomes.1740384796.txt.gz · Last modified: 2025/02/24 17:13 by hyjeong