Table of Contents
유전체 염기서열로부터 보툴리눔 톡신의 서브타입 알아내기
Toxin types
보툴리눔 신경독소(Botulinum neurotoxin, BoNT, gene은 일반적으로 bont로 표기)는 혈청학적 분석 방법을 통하여 A-G까지의 serotype으로 나뉘고, 다시 아미노산 유사도에 따라서 A1, A2, A3… 등의 42개의 subtype으로 세분화된다. Toxin serotype의 역사에 대해서는 T. J. Smith의 자료('Origins of Botulinum Toxin Types - Toxin Serotypes')를 참조하기 바란다. 어떠한 BoNT를 새로운 subtype으로 나누기 위한 아미노산 서열 차이의 기준은 2.6%이다.
BoNT subtype 각각의 대표적 서열이 유래한 균주와 GenBank accession number는 2017년도 Toxins 저널에 실린 논문 'Historical Perspectives and Guidelines for Botulinum Neurotoxin Subtype Nomenclature'의 Table 3에 수록되어 있다. 이 표에는 톡신 단백질의 아미노산 서열에 대한 accession number만이 수록되어 있는데, 일부 자료는 CDS의 accession이 실려 있고(AB037704.1, EF028404.1, GU213212.1, GU213221.1, KF861879.1, KF861920.1, KF929215.1), F8 subtype의 경우는 BioProject accession이 올라와 있는 등(AUZC00000000) 완성도가 약간 떨어짐을 확인할 수 있었다. 따라서 이 표의 정보를 이용하여 실제 검색 작업에 사용할 수 있도록 FASTA file을 만들어 두었다. Table 3의 일부 오류를 수정하고 톡신 단백질 및 염기서열의 accession no.를 별도로 수록한 Excel 파일(BoNT_subtypes.xlsx)과 톡신 단백질 서열의 FASTA file(all_42_toxins.fa) 및 R script(BoNT_classifier.R)을 한데 묶어서 업로드해 놓았다(bont_20230812.zip).
본 절에서는 유전체 해독을 통하여 생성한 보툴리눔 균주의 유전체 서열로부터 BoNT 유전자의 존재 여부를 확인하고, 가장 가까운 subtype과의 percent identity를 계산하여 신규 독소단백질의 가능성을 알아내는 방법에 대해서 설명하고자 한다.
분석 방법
첫 단계에서는 유전체 서열을 BLAST DB로 전환한 다음 독소 단백질 42개 서열을 query로 하여 TBLASTN을 이용, 검색을 실시한다. 파싱을 쉽게 하기 위하여 tabular format('-m 8' or '-m 9')으로 검색 결과를 출력하도록 한다.
$ formatdb -i genome.fa -p F $ blastall -p tblastn -m 98 -a 8 -i all_42_toxins.fa -d genome.fa -F F > genome_blast.out # thread는 8(-a 8)
BLAST 결과 파일을 BoNT_classifier.R로 처리하여 톡신 단백질의 서브타입을 알아낸다.
$ Rscript --vanilla /data/BinScript/BoNT_classifier.R CBC_blast.out ############################################## Processing CBC_blast.out... max percent identity: 99.6900% Not a new subtype (99.69% identical to C_BAA08418.1)
신규 톡신 후보의 경우 다음과 같은 출력을 얻게 될 것이다.
############################################## Processing GCA_000724345.2_blast.out... max percent identity: 96.1800% Congratulations! You found a new subtype candidate! (96.18% identical to D_EES90380.1)