User Tools

Site Tools


bioinfo:roary

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
bioinfo:roary [2022/06/27 10:57] – [다른 방법으로 마련한 통해 마련한 GFF3을 쓰면 안되나?] hyjeongbioinfo:roary [2023/06/26 20:02] (current) – [결과물 이해하기] hyjeong
Line 115: Line 115:
 [[https://sanger-pathogens.github.io/Roary/|Roary 공식 웹사이트]]의 <output files> 항목에 꽤 상세한 설명이 나온다. 여기에서는 공식 문서에서도 해소되지 않는 궁금증을 풀어 나가도록 한다.  [[https://sanger-pathogens.github.io/Roary/|Roary 공식 웹사이트]]의 <output files> 항목에 꽤 상세한 설명이 나온다. 여기에서는 공식 문서에서도 해소되지 않는 궁금증을 풀어 나가도록 한다. 
  
-clustered_proteins는 가장 이해하기 쉬운 파일이다. summary_statistics.txt에 나타난 total genes는 결국 gene cluster(singleton 포함)이며, 각 클러스터를 구성하는 균주별 유전자의 목록이 clustered_proteins 파일에 라인 단위로 보여진다. 클러스터의 대표 서열은 pan_genome_reference.fa 파일에 수록된다. 10개의 genome 중에서 어떤 기준으로 다음의 것이 선정되었는지는 나도 잘 모른다. 아마 Roary 논문에 이에 대한 설명이 있을 것이다. 다음의 사례에서 서열 ID는 실제로 선정된 유전자이고, description 항목의 'dna'는 cluster ID에 해당한다.+**clustered_proteins**는 가장 이해하기 쉬운 파일이다. **summary_statistics.txt**에 나타난 total genes는 결국 gene cluster(singleton 포함)이며, 각 클러스터를 구성하는 균주별 유전자의 목록이 clustered_proteins 파일에 라인 단위로 보여진다. 클러스터의 대표 서열은 **pan_genome_reference.fa** 파일에 수록된다. 10개의 genome 중에서 어떤 기준으로 다음의 것이 선정되었는지는 나도 잘 모른다. 아마 Roary 논문에 이에 대한 설명이 있을 것이다. 다음의 사례에서 서열 ID는 실제로 선정된 유전자이고, description 항목의 'dna'는 cluster ID에 해당한다.
   >f62c63acf1630b40d04ccf54718a60ec_3 dnaA   >f62c63acf1630b40d04ccf54718a60ec_3 dnaA
   GTGGACAGCCATACCTCTGAACTATGGCAGCAAATTCTATCCATTATACAAACCAAGCTG   GTGGACAGCCATACCTCTGAACTATGGCAGCAAATTCTATCCATTATACAAACCAAGCTG
bioinfo/roary.txt · Last modified: 2023/06/26 20:02 by hyjeong