User Tools

Site Tools


bioinfo:pan-genome_analysis

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
bioinfo:pan-genome_analysis [2023/06/27 14:52] – [유전체의 1:1 비교를 통해서 특이적 서열을 영역 정보화 함께 찾는 방법] hyjeongbioinfo:pan-genome_analysis [2023/06/28 13:07] (current) – [Scoary: pan-genome-wide association study] hyjeong
Line 223: Line 223:
  
 Core/Accessary analysis 또는 loci selector 기능에 대해서는 매뉴얼을 참조하라. Core/Accessary analysis 또는 loci selector 기능에 대해서는 매뉴얼을 참조하라.
-===== 유전체의 1:1 비교를 통해서 특이적 서열을 영역 정보와 함께 찾는 방법 ===== 
-<color #ed1c24>Pan-genome analysis 성격에는 맞지 않으므로 별도의 페이지로 독립</color> 
  
-A 균주의 유전체는 RefSeq 등 데이터베이스에서 다운로드 가능한 상태이고, B 균주는 아직 공개된 정보가 없어서 실험실에서 일루미나 기법으로 short read를 생성했다고 가정하자. A 유전체를 reference로 삼아서 B의 read를 매핑하면 zero coverage region으로부터 A 특이적인 유전체 염기서열을 찾을 수 있고, unmapped read를 회수하여 조립하면 B 특이적인 염기서열을 찾을 수 있다. 매핑시 percent identity threshold는 95% 정도로 높게 잡는 것이 무난할 것이다. 선정된 균주 특이적 영역은 상대방 유전체에 대하여 BLASTN 검색을 하여 매치하지 않음을 최종적으로 점검하는 것이 바람직하다.  
- 
-비교 대상 균주가 전부 contig 상태의 유전체 정보로만 존재한다면, 이로부터 fake read를 생성하여 마찬가지의 방법으로 분석을 실시하면 될 것이다. 그러나 MUMmer(dnadiff)를 이용하여 유전체 단위의 직접 비교를 실시한 뒤 analigned region에 대한 정보를 추출하는 방법을 알아보도록 하자. 
- 
-https://www.biostars.org/p/396962/ 
 ===== 기타 pan-genome 분석 도구 ===== ===== 기타 pan-genome 분석 도구 =====
 2018년에 논문으로 발표된 [[https://github.com/neherlab/pan-genome-analysis|panX]]는 미생물 pan genome의 분석 및 시각화를 위한 도구이다. panX는 [[https://uni-tuebingen.de/fakultaeten/mathematisch-naturwissenschaftliche-fakultaet/fachbereiche/informatik/lehrstuehle/algorithms-in-bioinformatics/software/diamond/|DIAMOND]]를 이용하여 단백질 서열의 빠른 정렬을 한 뒤 [[https://micans.org/mcl/|MCL]]로 클러스터링을 실시하며, 계통발생에 근거한 후처리를 실시한다. 더불어 core-genome의 SNP를 기반으로 트리를 작성하여 gene gain/loss도 추정한다. 가장 큰 특징은 시각화를 위한 별도의 프로그램([[https://github.com/neherlab/pan-genome-visualization|pan-genome-visualization]])을 제공한다는 것이다. 사전에 계산된 pan genome은 panX 웹사이트에서 열람할 수 있다. 여기에서는 panX를 이용하여 직접 pan genome analysis를 실시하고 그 결과물을 시각화하는 방법을 알아본다. 2018년에 논문으로 발표된 [[https://github.com/neherlab/pan-genome-analysis|panX]]는 미생물 pan genome의 분석 및 시각화를 위한 도구이다. panX는 [[https://uni-tuebingen.de/fakultaeten/mathematisch-naturwissenschaftliche-fakultaet/fachbereiche/informatik/lehrstuehle/algorithms-in-bioinformatics/software/diamond/|DIAMOND]]를 이용하여 단백질 서열의 빠른 정렬을 한 뒤 [[https://micans.org/mcl/|MCL]]로 클러스터링을 실시하며, 계통발생에 근거한 후처리를 실시한다. 더불어 core-genome의 SNP를 기반으로 트리를 작성하여 gene gain/loss도 추정한다. 가장 큰 특징은 시각화를 위한 별도의 프로그램([[https://github.com/neherlab/pan-genome-visualization|pan-genome-visualization]])을 제공한다는 것이다. 사전에 계산된 pan genome은 panX 웹사이트에서 열람할 수 있다. 여기에서는 panX를 이용하여 직접 pan genome analysis를 실시하고 그 결과물을 시각화하는 방법을 알아본다.
Line 261: Line 254:
  
 Scoary의 입력물로는 gene_presence_absence.csv 파일과 더불어 trait table 파일(traits.csv)이 필요하다. Trait의 유무는 0과 1로 표현하되, 분석할 특성이 여러 개라면 콤마로 구분한다. 첫 컬럼은 균주명이고, 첫 줄은 제목에 해당한다. 다음은 trait table의 구조와 실행 사례이다.  Scoary의 입력물로는 gene_presence_absence.csv 파일과 더불어 trait table 파일(traits.csv)이 필요하다. Trait의 유무는 0과 1로 표현하되, 분석할 특성이 여러 개라면 콤마로 구분한다. 첫 컬럼은 균주명이고, 첫 줄은 제목에 해당한다. 다음은 trait table의 구조와 실행 사례이다. 
 +
 +===== 읽어야 할 논문 =====
 +[[https://genomebiology.biomedcentral.com/articles/10.1186/s13059-021-02473-1|Pandora: nucleotide-resolution bacterial pan-genomics with reference graphs]] Genome Biology (2021)
 +
bioinfo/pan-genome_analysis.1687845120.txt.gz · Last modified: by hyjeong