User Tools

Site Tools


bioinfo:whole-genome_alignment

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
bioinfo:whole-genome_alignment [2023/06/28 13:56] – [minimap2의 활용] hyjeongbioinfo:whole-genome_alignment [2023/06/29 10:05] (current) – [dnadiff 결과로부터 균주 특이적 영역 찾기] hyjeong
Line 52: Line 52:
   UnalignedSeqs               0(0.00%)             0(0.00%)   UnalignedSeqs               0(0.00%)             0(0.00%)
   <이하 생략>   <이하 생략>
 +
 +SNP 파일을 VCF로 전환하려면 [[https://github.com/MatteoSchiavinato/all2vcf|all2vcf]] 유틸리티의 mummer 명령을 이용하라.
  
 두 염기서열 FASTA file의 identity만을 계산하고 싶다면 identity.sh 스트립트를 사용하라. 내가 만든 스크립트였던가, 혹은 어디서 퍼 온 것인가? 잘 기억이 나지 않는다. 두 염기서열 FASTA file의 identity만을 계산하고 싶다면 identity.sh 스트립트를 사용하라. 내가 만든 스크립트였던가, 혹은 어디서 퍼 온 것인가? 잘 기억이 나지 않는다.
Line 143: Line 145:
   $ seqtk seq -L 150 query-specific.fa > filtered.fa   $ seqtk seq -L 150 query-specific.fa > filtered.fa
  
-유전체 염기서열의 특정 구간 정보를 BED 파일로 확보하였다면 여기에 어떤 기능을 갖는 유전자가 위치하고 있는지를 알고 싶을 것이다. GenBank 파일에서 유전자 정보를 수록한 BED 파일을 만든 뒤, 이를 위에서 만든 query-specific.bed(.filt)와 함께 bedtools intersect 명령어에 인수로 제공하면 된다. 첫 번째 BED 파일에는 유전자의 locus tag과 기능 정보를 4번째 컬럼부터 삽입해 두면 최종 결과 파일에도 이 정보가 상속되므로 후속 작업에 매우 편리하다. /data/BinScript/gbkInfo.pl 결과물을 활용하면 첫 번째 BED 파일을 만들 수 있다. 두 BED 파일의 경계에 걸치는 유전자를 처리하기 위하여 [[https://bedtools.readthedocs.io/en/latest/content/tools/intersect.html|bedtools intersect]] 명령 실행 시 '-f 0.3' 옵션을 주었다. 이는 유전자 정보를 담고 있는 첫 번째 BED 파일의 정보에 대하여 최소 30%가 겹쳐야 함을 의미한다. 이는 단지 하나의 사례이므로 적절히 바꾸어도 된다. 예를 들어 '-f 1.0'으로 설정하면 specific region 안에 전 영역이 완전히 포함되는 유전자들만 추출될 것이다.+유전체 염기서열의 특정 구간 정보를 BED 파일로 확보하였다면 여기에 어떤 기능을 갖는 유전자가 위치하고 있는지를 알고 싶을 것이다. GenBank 파일에서 유전자 정보를 수록한 BED 파일을 만든 뒤, 이를 위에서 만든 query-specific.bed(.filt)와 함께 bedtools intersect 명령어에 인수로 제공하면 된다. 첫 번째 BED 파일에는 유전자의 locus tag과 기능 정보를 4번째 컬럼부터 삽입해 두면 최종 결과 파일에도 이 정보가 상속되므로 후속 작업에 매우 편리하다. [[:custom_scripts#gbkinfopl|gbkInfo.pl]]을 활용하면 첫 번째 BED 파일을 만들 수 있다. 두 BED 파일의 경계에 걸치는 유전자를 처리하기 위하여 [[https://bedtools.readthedocs.io/en/latest/content/tools/intersect.html|bedtools intersect]] 명령 실행 시 '-f 0.3' 옵션을 주었다. 이는 유전자 정보를 담고 있는 첫 번째 BED 파일의 정보에 대하여 최소 30%가 겹쳐야 함을 의미한다. 이는 단지 하나의 사례이므로 적절히 바꾸어도 된다. 예를 들어 '-f 1.0'으로 설정하면 specific region 안에 전 영역이 완전히 포함되는 유전자들만 추출될 것이다.
  
   $ gbkInfo.pl Hall_A.gbk # Hall_A.gbk.txt 파일 생성(query genome)   $ gbkInfo.pl Hall_A.gbk # Hall_A.gbk.txt 파일 생성(query genome)
bioinfo/whole-genome_alignment.1687928186.txt.gz · Last modified: by hyjeong