User Tools

Site Tools


bioinfo:microbial_varaint_calling

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
bioinfo:microbial_varaint_calling [2023/06/28 13:24] – ↷ Page name changed from bioinfo:반수체_게놈의_변이_탐색_variant_analysis to bioinfo:microbial_varaint_calling hyjeongbioinfo:microbial_varaint_calling [2023/06/28 14:47] (current) – [Varifier] hyjeong
Line 1: Line 1:
-====== 반수체 게놈의 변이 탐색(variant analysis) ======+====== Microbial variant calling ======
 BAM file을 정렬 및 인덱싱한 뒤 bcftools(SAMtools와 같이 설치됨)을 실행한다. BAM file은 sort가 먼저 되어 있어야 인덱싱이 가능하다. BAM file을 정렬 및 인덱싱한 뒤 bcftools(SAMtools와 같이 설치됨)을 실행한다. BAM file은 sort가 먼저 되어 있어야 인덱싱이 가능하다.
  
Line 143: Line 143:
  
 ===== Varifier ===== ===== Varifier =====
 +박테리아의 유전체가 갖는 고유 특성(mosaic) 때문에 core genome을 기반으로 하는 SNP 분석으로는 만족할 만한 결과를 얻기 어렵다. 2021년 Genome Biology에 발표된 [[https://genomebiology.biomedcentral.com/articles/10.1186/s13059-021-02473-1|Pandora: nucleotide-resolution bacterial pan-genomics with reference graphs]]라는 논문에서는 시퀀싱된 genome을 reference의 재조합체로 근사하여 새로운 변이를 탐지하며, 여러 샘플을 //pan-genotype//으로 분류한다. 이 논문에서 활용한 [[https://github.com/iqbal-lab-org/varifier|varifier]]는 VCF로 주어지는 변이 발굴 결과를 평가하거나(subcommand 'vcf_eval'), 또는 VCF를 생성하는(subcommand 'make_truth_vcf') 도구이다.
  
 +make_truth_vcf는 두 개의 유전체 염기서열 파일(G1 & G2)을 인수로 갖는다. dnadiff와 minimap2/paftools를 각각 사용하여 pairwise SNP set를 생성한 뒤 합쳐서 거른다. 각 allele에 대하여 G1으로부터 좌우50 염기씩을 포함하는 probe를 만든 뒤 G2에 대하여 매핑한 뒤 mapping quality가 0이 되는 것은 paralog/duplicate/repeat에서 유래한 것으로 간주하여 제거한다. 마지막으로 매핑 후 allele 내부의 미스매치를 점검하여 확정한다.
  
 +  usage: varifier make_truth_vcf [options] <truth_fasta> <ref_fasta> <outdir>
bioinfo/microbial_varaint_calling.1687926255.txt.gz · Last modified: by hyjeong