bioinfo:roary
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
bioinfo:roary [2022/06/22 18:12] – [cluster ID를 이용하여 GFF 파일에서 지정된 유전자의 염기서열 추출하기] hyjeong | bioinfo:roary [2023/06/26 20:02] (current) – [결과물 이해하기] hyjeong | ||
---|---|---|---|
Line 33: | Line 33: | ||
==== 다른 방법으로 마련한 통해 마련한 GFF3을 쓰면 안되나? ==== | ==== 다른 방법으로 마련한 통해 마련한 GFF3을 쓰면 안되나? ==== | ||
- | GFF3 파일은 이를 만들어내는 프로그램에 따라서 형식이 조금씩 다르다. Roary가 사용하는 GFF3 파일은 뒷부분 '## | + | GFF3 파일은 이를 만들어내는 프로그램에 따라서 형식이 조금씩 다르다. Roary가 사용하는 GFF3 파일은 |
LOCUS | LOCUS | ||
DEFINITION | DEFINITION | ||
Line 115: | Line 115: | ||
[[https:// | [[https:// | ||
- | clustered_proteins는 가장 이해하기 쉬운 파일이다. summary_statistics.txt에 나타난 total genes는 결국 gene cluster(singleton 포함)이며, | + | **clustered_proteins**는 가장 이해하기 쉬운 파일이다. |
> | > | ||
GTGGACAGCCATACCTCTGAACTATGGCAGCAAATTCTATCCATTATACAAACCAAGCTG | GTGGACAGCCATACCTCTGAACTATGGCAGCAAATTCTATCCATTATACAAACCAAGCTG | ||
Line 323: | Line 323: | ||
- gene_presence_absence.csv는 콤마로 각 컬럼을 구분하고 있으며, 컬럼은 따옴표로 둘러싸여 있다. Annotation 컬럼은 내부적으로 콤마를 포함할 수도 있다. 많은 유전자의 product 이름에는 콤마가 들어있는 경우가 많다. | - gene_presence_absence.csv는 콤마로 각 컬럼을 구분하고 있으며, 컬럼은 따옴표로 둘러싸여 있다. Annotation 컬럼은 내부적으로 콤마를 포함할 수도 있다. 많은 유전자의 product 이름에는 콤마가 들어있는 경우가 많다. | ||
- Paralog가 출현하면 하나의 컬럼에 두 개 이상의 유전자가 있을 수 있다. | - Paralog가 출현하면 하나의 컬럼에 두 개 이상의 유전자가 있을 수 있다. | ||
- | 1, 즉 따옴표로 둘러싼 컬럼을 콤마로 구분하는 csv 파일을 파싱하는 것은 매우 흔한 일이면서도 의외로 까다롭다. [[https:// | + | 1, 즉 따옴표로 둘러싼 컬럼(특히 그 내부에 콤마를 포함하는 경우)을 콤마로 구분하는 csv 파일을 파싱하는 것은 매우 흔한 일이면서도 의외로 까다롭다(([[https:// |
$ csvcut -c 1,17 ../ | $ csvcut -c 1,17 ../ | ||
$ join -t, -1 1 -2 1 core_genes.txt gene_presence_absence_GCF_000520775.1.csv > core_gene_info_GCF_000520775.1.txt | $ join -t, -1 1 -2 1 core_genes.txt gene_presence_absence_GCF_000520775.1.csv > core_gene_info_GCF_000520775.1.txt | ||
Line 370: | Line 370: | ||
} | } | ||
} | } | ||
+ | 두 번째 방법으로 추출한 FASTA 파일에는 gap이 존재하지 않으며, 오로지 위치를 이용하여 염기서열을 추출하게 되므로 core gene의 group ID가 약간 틀려도 문제를 일으키지 않는다는 장점이 있다. | ||
===== Roary에게 경의를! Scory ===== | ===== Roary에게 경의를! Scory ===== |
bioinfo/roary.1655889176.txt.gz · Last modified: 2022/06/22 18:12 by hyjeong