bioinfo:average_nucleotide_identity_ani_의_계산
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
bioinfo:average_nucleotide_identity_ani_의_계산 [2023/06/26 13:19] – [쌍 형태의 ANI 자료를 매트릭스로 전환하기] hyjeong | bioinfo:average_nucleotide_identity_ani_의_계산 [2023/08/11 16:48] (current) – [쌍 형태의 ANI 자료를 매트릭스로 전환하기] hyjeong | ||
---|---|---|---|
Line 53: | Line 53: | ||
$ awk -F"," | $ awk -F"," | ||
| | ||
- | 실습을 통하여 dRep 계산과 MASH matrix를 만드는 방법을 알아보자. {{: | + | 실습을 통하여 dRep 계산과 MASH matrix를 만드는 방법을 알아보자. {{: |
# accessions.txt의 각 줄을 분리하여 acc1, | # accessions.txt의 각 줄을 분리하여 acc1, | ||
Line 101: | Line 101: | ||
| | ||
$ awk -F"," | $ awk -F"," | ||
- | + | | |
- | 데이터 파일(pairwise.txt)이 만들어졌으므로 R console에서 후속 작업을 진행한다. | + | # |
> library(reshape) | > library(reshape) | ||
> d = read.table(file=" | > d = read.table(file=" | ||
Line 122: | Line 121: | ||
> View(d3) | > View(d3) | ||
> write.table(d3," | > write.table(d3," | ||
- | | + | |
+ | drep_outdir/data_tables/Cdb.csv 파일로부터 각 secondary cluster에 몇 개의 genome이 속하는지 알아보자. | ||
+ | |||
+ | $ awk -F, ' | ||
+ | 21 1_1 | ||
+ | 2 1_2 | ||
+ | 9 1_3 | ||
+ | 11 1_4 | ||
+ | 1 2_1 | ||
+ | 1 2_2 | ||
+ | 1 2_3 | ||
+ | 3 3_1 | ||
+ | 1 3_2 | ||
+ | 1 3_3 | ||
+ | |||
+ | 가장 멤버의 수가 많은 cluster 1_1에는 21개의 genome이 속한다. | ||
+ | |||
+ | 모든 유전체에 대한 pairwise ANI 수치를 빠짐없이 얻고 싶다면 pyani를 이용하는 것이 나을 것이다. Pyani의 결과물에는 ANI 매트릭스가 포함되어 있어서 추가적인 계산은 필요하지 않다. 단, 계산 시간이 더 많이 걸리는 것은 감안해야 한다. dRep의 결과 파일을 조작하여 매트릭스를 만드는 이유는 iTOL 서버 등에서 재사용할 수 있는 tree 파일을 얻기 위함이다. 클러스터링 정보는 이미 PDF로 작성된 리포트 파일로 제공하고 있으니 그것을 활용하면 된다. 반면 pyani는 ANI 매트릭스와 heatmap을 제공하지만 정작 어느 유전체가 어느 클러스터에 속하는지를 나타낸 별도의 파일을 만들어내지는 않는다. | ||
===== Genome-to-Genome Distance Calculator ===== | ===== Genome-to-Genome Distance Calculator ===== |
bioinfo/average_nucleotide_identity_ani_의_계산.1687753190.txt.gz · Last modified: by hyjeong