====== Harvest suite를 이용한 신속한 유전체 비교와 시각화 ====== [[https://harvest.readthedocs.io/en/latest/|Harvest suite]]는 core genome 분석(parsnp), 시각화(gingr) 및 파일 전환/후처리(harvesttools)로 이루어진 도구의 모음으로서 한 종에 속하는 미생물 유전체의 빠른 비교에 매우 유용하다. Snippy와 근본적으로 다른 점은 NGS read가 아니라 assembled sequence만을 대상으로 하며, 본격적인 variant analysis 프로그램이 아니므로 아미노산 변화 등에 대한 정보를 직접적으로 제공하지는 않는다. Parsnp를 실행할 때 reference sequence는 GenBank(-g option)나 FASTA(-r) 어느 것이든 가능하다. 그러나 GENOME_DIR 하위에는 FASTA 형식의 genomes/contigs/scaffolds 서열이 있어야 한다. Gingr은 GUI 프로그램이므로 인수 없이 실행한 다음 메뉴에서 읽어 들일 파일을 선택해도 된다. Core genome 분석에 쓰일 유전체는 동일 종에 속하는 가까운 것들이어야 하므로, parsnp는 [[https://journals.asm.org/doi/10.1128/JB.01202-08|MUMi]]에 의해서 입력물로 주어진 유전체를 사전에 걸러낸다. 최대 MUMi distance는 자동으로 설정되지만 옵션으로 지정할 수도 있다. 제공하는 유전체 정보를 강제적으로 전부 사용하려면 -c 옵션을 사용하라. Reference 서열에 대한 MUMi distance만 계산하고 parsnp 과정을 마치려면 -M YES 옵션을 사용한다. $ parsnp -g reference.gbk -d GENOME_DIR -o OUT_DIR –p 8 $ gingr OUTIDR/parsnp.ggr Parsnp가 출력 디렉토리에 생성하는 결과 파일은 다음과 같다. MUMi 관련 정보는 all.mumi와 all_mumi.ini 파일에 있지만 parsnp를 -M YES 옵션으로 실행하지 않으면 지워진다. * Newick formatted core genome SNP tree: parsnp.tree * Gingr formatted binary archive: parsnp.ggr * XMFA formatted multiple alignment: parsnp.xmfa Gingr은 parsnp가 만들어내는 출력물 외에도 다양한 포맷의 파일을 import 또는 export할 수 있다. 패키지에 포함된 명령행 프로그램인 harvesttools도 같은 기능을 한다. Gingr이 다룰 수 있는 파일 형식은 다음과 같이 다양하다(그림 원본 [[https://harvest.readthedocs.io/en/latest/content/gingr/types.html|링크]]). {{ :bioinfo:gingr_file_formats.png?400 |}}