bioinfo:whole-genome_alignment
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
bioinfo:whole-genome_alignment [2023/06/28 08:48] – [minimap2의 활용] hyjeong | bioinfo:whole-genome_alignment [2023/06/29 10:05] (current) – [dnadiff 결과로부터 균주 특이적 영역 찾기] hyjeong | ||
---|---|---|---|
Line 33: | Line 33: | ||
* out.unqry | * out.unqry | ||
- | 리포트 파일(out.report)의 내용은 다음과 같다. Refenece와 query 전부 complete genome sequence이며, | + | 리포트 파일(out.report)의 내용은 다음과 같다. Refenece(GCF_000063585.1)와 query(GCF_000017045.1) |
/ | / | ||
Line 52: | Line 52: | ||
UnalignedSeqs | UnalignedSeqs | ||
<이하 생략> | <이하 생략> | ||
+ | |||
+ | SNP 파일을 VCF로 전환하려면 [[https:// | ||
두 염기서열 FASTA file의 identity만을 계산하고 싶다면 identity.sh 스트립트를 사용하라. 내가 만든 스크립트였던가, | 두 염기서열 FASTA file의 identity만을 계산하고 싶다면 identity.sh 스트립트를 사용하라. 내가 만든 스크립트였던가, | ||
Line 143: | Line 145: | ||
$ seqtk seq -L 150 query-specific.fa > filtered.fa | $ seqtk seq -L 150 query-specific.fa > filtered.fa | ||
- | 유전체 염기서열의 특정 구간 정보를 BED 파일로 확보하였다면 여기에 어떤 기능을 갖는 유전자가 위치하고 있는지를 알고 싶을 것이다. GenBank 파일에서 유전자 정보를 수록한 BED 파일을 만든 뒤, 이를 위에서 만든 query-specific.bed(.filt)와 함께 bedtools intersect 명령어에 인수로 제공하면 된다. 첫 번째 BED 파일에는 유전자의 locus tag과 기능 정보를 4번째 컬럼부터 삽입해 두면 최종 결과 파일에도 이 정보가 상속되므로 후속 작업에 매우 편리하다. | + | 유전체 염기서열의 특정 구간 정보를 BED 파일로 확보하였다면 여기에 어떤 기능을 갖는 유전자가 위치하고 있는지를 알고 싶을 것이다. GenBank 파일에서 유전자 정보를 수록한 BED 파일을 만든 뒤, 이를 위에서 만든 query-specific.bed(.filt)와 함께 bedtools intersect 명령어에 인수로 제공하면 된다. 첫 번째 BED 파일에는 유전자의 locus tag과 기능 정보를 4번째 컬럼부터 삽입해 두면 최종 결과 파일에도 이 정보가 상속되므로 후속 작업에 매우 편리하다. |
$ gbkInfo.pl Hall_A.gbk # Hall_A.gbk.txt 파일 생성(query genome) | $ gbkInfo.pl Hall_A.gbk # Hall_A.gbk.txt 파일 생성(query genome) | ||
Line 161: | Line 163: | ||
===== minimap2의 활용 ===== | ===== minimap2의 활용 ===== | ||
- | minimap([[https:// | + | 이 항목은 |
- | [[https:// | + | minimap([[https:// |
- | variants from haploid assemblies]] 항목을 주로 참조하였다. | + | |
+ | 2018년도 논문에서는 minimap2의 특성을 다음과 같이 소개하였다. | ||
+ | |||
+ | <color # | ||
+ | |||
+ | minimap2의 여러 사용례 중에서 미생물 유전체를 1:1로 비교하여 SNP를 추출하는 방법을 정리해 보았다. 이를 더욱 확장하면 정렬이 이루어지지 않는 영역 정보를 추출하는 것도 가능할 것이다. | ||
+ | |||
+ | [[https:// | ||
+ | variants from haploid assemblies]] 항목을 주로 참조하였다. minimap2의 여러 옵션에 대해서는 따로 공부를 하는 것이 좋을 것 같다. PAF(a Pairwise mApping Format) 파일의 설명은 [[https:// | ||
# keeping this file is recommended; | # keeping this file is recommended; | ||
Line 171: | Line 181: | ||
$ sort -k6,6 -k8,8n asm.paf > asm.srt.paf | $ sort -k6,6 -k8,8n asm.paf > asm.srt.paf | ||
$ k8 paftools.js call asm.srt.paf > asm.var.txt | $ k8 paftools.js call asm.srt.paf > asm.var.txt | ||
+ | 3686527 reference bases covered by exactly one contig | ||
+ | 794 substitutions; | ||
+ | 40 1bp deletions | ||
+ | 25 1bp insertions | ||
+ | 0 2bp deletions | ||
+ | 3 2bp insertions | ||
+ | 2 [3,50) deletions | ||
+ | 5 [3,50) insertions | ||
+ | 3 [50,1000) deletions | ||
+ | 9 [50,1000) insertions | ||
+ | 6 >=1000 deletions | ||
+ | 4 >=1000 insertions | ||
+ | $ head -n 5 asm.var.txt | ||
+ | R | ||
+ | V | ||
+ | V | ||
+ | V | ||
+ | V | ||
- | 다음 정보를 정리할 것. | + | asm.var.txt에서 R로 시작하는 줄은 하나의 query contig가 덮는 영역을, V로 시작하는 줄은 variant를 뜻한다. paftools.js가 variant calling을 할 때 취하는 alignment의 최소 길이가 |
- | + | ||
- | https:// | + | |
- | https:// | ||
- | https:// | ||
- | https:// | ||
- | https:// |
bioinfo/whole-genome_alignment.1687909739.txt.gz · Last modified: by hyjeong