Differences

This shows you the differences between two versions of the page.

--- bioinfo:whole-genome_alignment [2023/06/28 13:08] – [minimap2의 활용] hyjeong
+++ bioinfo:whole-genome_alignment [2023/06/29 10:05] (current) – [dnadiff 결과로부터 균주 특이적 영역 찾기] hyjeong
@@ Line 52: / Line 52: @@
   UnalignedSeqs               0(0.00%)             0(0.00%)
   <이하 생략>
+SNP 파일을 VCF로 전환하려면 [[https://github.com/MatteoSchiavinato/all2vcf|all2vcf]] 유틸리티의 mummer 명령을 이용하라.
 두 염기서열 FASTA file의 identity만을 계산하고 싶다면 identity.sh 스트립트를 사용하라. 내가 만든 스크립트였던가, 혹은 어디서 퍼 온 것인가? 잘 기억이 나지 않는다.
@@ Line 143: / Line 145: @@
   $ seqtk seq -L 150 query-specific.fa > filtered.fa
-유전체 염기서열의 특정 구간 정보를 BED 파일로 확보하였다면 여기에 어떤 기능을 갖는 유전자가 위치하고 있는지를 알고 싶을 것이다. GenBank 파일에서 유전자 정보를 수록한 BED 파일을 만든 뒤, 이를 위에서 만든 query-specific.bed(.filt)와 함께 bedtools intersect 명령어에 인수로 제공하면 된다. 첫 번째 BED 파일에는 유전자의 locus tag과 기능 정보를 4번째 컬럼부터 삽입해 두면 최종 결과 파일에도 이 정보가 상속되므로 후속 작업에 매우 편리하다. /data/BinScript/gbkInfo.pl 결과물을 활용하면 첫 번째 BED 파일을 만들 수 있다. 두 BED 파일의 경계에 걸치는 유전자를 처리하기 위하여 [[https://bedtools.readthedocs.io/en/latest/content/tools/intersect.html|bedtools intersect]] 명령 실행 시 '-f 0.3' 옵션을 주었다. 이는 유전자 정보를 담고 있는 첫 번째 BED 파일의 정보에 대하여 최소 30%가 겹쳐야 함을 의미한다. 이는 단지 하나의 사례이므로 적절히 바꾸어도 된다. 예를 들어 '-f 1.0'으로 설정하면 specific region 안에 전 영역이 완전히 포함되는 유전자들만 추출될 것이다.
+유전체 염기서열의 특정 구간 정보를 BED 파일로 확보하였다면 여기에 어떤 기능을 갖는 유전자가 위치하고 있는지를 알고 싶을 것이다. GenBank 파일에서 유전자 정보를 수록한 BED 파일을 만든 뒤, 이를 위에서 만든 query-specific.bed(.filt)와 함께 bedtools intersect 명령어에 인수로 제공하면 된다. 첫 번째 BED 파일에는 유전자의 locus tag과 기능 정보를 4번째 컬럼부터 삽입해 두면 최종 결과 파일에도 이 정보가 상속되므로 후속 작업에 매우 편리하다. [[:custom_scripts#gbkinfopl|gbkInfo.pl]]을 활용하면 첫 번째 BED 파일을 만들 수 있다. 두 BED 파일의 경계에 걸치는 유전자를 처리하기 위하여 [[https://bedtools.readthedocs.io/en/latest/content/tools/intersect.html|bedtools intersect]] 명령 실행 시 '-f 0.3' 옵션을 주었다. 이는 유전자 정보를 담고 있는 첫 번째 BED 파일의 정보에 대하여 최소 30%가 겹쳐야 함을 의미한다. 이는 단지 하나의 사례이므로 적절히 바꾸어도 된다. 예를 들어 '-f 1.0'으로 설정하면 specific region 안에 전 영역이 완전히 포함되는 유전자들만 추출될 것이다.
   $ gbkInfo.pl Hall_A.gbk # Hall_A.gbk.txt 파일 생성(query genome)
@@ Line 200: / Line 202: @@
 asm.var.txt에서 R로 시작하는 줄은 하나의 query contig가 덮는 영역을, V로 시작하는 줄은 variant를 뜻한다. paftools.js가 variant calling을 할 때 취하는 alignment의 최소 길이가 정해져 있으므로 short read를 활용할 때에는 조정이 필요하다.
-다음 정보를 정리할 것.
-https://github.com/iqbal-lab-org/varifier
-https://academic.oup.com/bioinformatics/article/32/14/2103/1742895