bioinfo:average_nucleotide_identity_ani_의_계산
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
bioinfo:average_nucleotide_identity_ani_의_계산 [2023/06/26 12:57] – [쌍 형태의 ANI 자료를 매트릭스로 전환하기] hyjeong | bioinfo:average_nucleotide_identity_ani_의_계산 [2023/08/11 16:48] (current) – [쌍 형태의 ANI 자료를 매트릭스로 전환하기] hyjeong | ||
---|---|---|---|
Line 53: | Line 53: | ||
$ awk -F"," | $ awk -F"," | ||
| | ||
- | 실습을 통하여 dRep 계산과 MASH matrix를 만드는 방법을 알아보자. {{: | + | 실습을 통하여 dRep 계산과 MASH matrix를 만드는 방법을 알아보자. {{: |
# accessions.txt의 각 줄을 분리하여 acc1, | # accessions.txt의 각 줄을 분리하여 acc1, | ||
Line 97: | Line 97: | ||
Figures.............................. / | Figures.............................. / | ||
Warnings............................. / | Warnings............................. / | ||
+ | | ||
$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$ | $$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$ | ||
+ | | ||
+ | $ awk -F"," | ||
+ | | ||
+ | # 데이터 파일(pairwise.txt)이 만들어졌으므로 R console에서 후속 작업을 진행한다. | ||
+ | > library(reshape) | ||
+ | > d = read.table(file=" | ||
+ | > head(d) # 데이터 확인 | ||
+ | > d2 = cast(d, | ||
+ | > row.names(d2) = d2[,1] | ||
+ | > d2 = d2[,-1] | ||
+ | # NA value(결측치)가 있는지 확인하라. Secondary clustering 결과를 사용한다면 결측치가 있을 것이다. | ||
+ | > sum(is.na(d2)) | ||
+ | # NA를 0으로 대체한다. ANI 값이라면 이렇게 하는 것이 타당할 것이다. | ||
+ | > d2[is.na(d2)] = 0 | ||
+ | # 대칭 여부를 확인한다. | ||
+ | > isSymmetric(as.matrix(d2)) | ||
+ | [1] TRUE | ||
+ | # 대칭이 아니라면 다음과 같이 조작하는 것이 나중의 분석을 위해 바람직할 것이다. | ||
+ | > d3 = (d2 + t(d2))/2 | ||
+ | > dim(d3) | ||
+ | > View(d3) | ||
+ | > write.table(d3," | ||
+ | |||
+ | drep_outdir/ | ||
- | | + | $ awk -F, ' |
+ | 21 1_1 | ||
+ | 2 1_2 | ||
+ | 9 1_3 | ||
+ | 11 1_4 | ||
+ | 1 2_1 | ||
+ | 1 2_2 | ||
+ | 1 2_3 | ||
+ | 3 3_1 | ||
+ | 1 3_2 | ||
+ | 1 3_3 | ||
+ | 가장 멤버의 수가 많은 cluster 1_1에는 21개의 genome이 속한다. | ||
+ | 모든 유전체에 대한 pairwise ANI 수치를 빠짐없이 얻고 싶다면 pyani를 이용하는 것이 나을 것이다. Pyani의 결과물에는 ANI 매트릭스가 포함되어 있어서 추가적인 계산은 필요하지 않다. 단, 계산 시간이 더 많이 걸리는 것은 감안해야 한다. dRep의 결과 파일을 조작하여 매트릭스를 만드는 이유는 iTOL 서버 등에서 재사용할 수 있는 tree 파일을 얻기 위함이다. 클러스터링 정보는 이미 PDF로 작성된 리포트 파일로 제공하고 있으니 그것을 활용하면 된다. 반면 pyani는 ANI 매트릭스와 heatmap을 제공하지만 정작 어느 유전체가 어느 클러스터에 속하는지를 나타낸 별도의 파일을 만들어내지는 않는다. | ||
===== Genome-to-Genome Distance Calculator ===== | ===== Genome-to-Genome Distance Calculator ===== |
bioinfo/average_nucleotide_identity_ani_의_계산.1687751862.txt.gz · Last modified: by hyjeong