많은 어려움을 뚫고서 2016년 초여름에 MetAMOS를 설치하여 어느 상태로는 돌아가게 만드는데 성공하였다. 그러나 인쇄한 매뉴얼이 너덜너덜해지도록 줄을 치고 메모해가면서 정독하고 테스트를 하였지만 아직 완벽한 상태는 아니다. 만 1년이 되기 전에 사용법을 완전히 익히고 어느 리눅스 서버에든 쉽게 재설치를 할 수 있도록 다시 한 번 종합적인 테스트를 실시한다.
MetAMOS의 샘플 데이터는 160 kb의 작은 유전체를 지닌 bacterial endosymbiont “Candidatus Carsonella ruddii PV”의 50x read를 사용하는 것으로 되어있다. fasta 및 fastq 파일과 reference(complete)가 전부 존재한다. _pe_가 암시하듯이 interleaved 형태의 paired end sequence이다.
8000000 bp / 100000 seqs; 80.0 average length -- carsonella_pe_filt.fna 8000000 bp / 100000 seqs; 80.0 average length -- carsonella_pe_filt.fq 159662 bp / 1 seqs; 159662.0 average length -- carsonella_reference.fna
실행 위치는 전부 path/to/metAMOS-1.53rc/Test 디렉토리이다.
interleaved fasta file의 사례이다.
../initPipeline -f -m carsonella_pe_filt.fna -d test1 -i 500:3500
-f STRING(force this step)과 -n STRING(step to skip)을 지정하지 않으면 MultiAlign, FunctionalAnnotation, FindRepeats, FindScaffoldORFS 단계를 생략한다. 실제로 사용된 명령어 라인은 output_directory/Logs/COMMANDS.log를 열어보면 그대로 나온다.
default assembler인 SOAPdenovo(k-mer 31)에 의한 조립은 되지만 Abundance(no plot), Annotate(100% no hits) Classify (all unknown: 13 = 17 contigs + 6 scaffolds) 결과는 이상하다. Postprocess에 의하여 proba.ctg.fa와 proba.scf.fa가 나온다. 이제 옵션을 하나씩 추가해 보자.
Abundance(no plot), Annotate(100% no hits) Classify (all unknown)
default annotate program인 FCP를 명시적으로 설정한다. 드디어 Annotate 결과가 나타났고 Classify도 100% Gammaproteobacteria로 나왔다. 그러나 Abundance는 여전히 플롯을 그리지 못한다.
-c kraken을 설정하면 Annotate(100% No hits), Classify(unknown) 그러나 Abundance는 플롯이 없다.
이렇게 하면 run_pipeline_test.sh와 거의 같아진다. 그러나 결과는 나아지지 않았다. 도저히 이해하기 어렵지만 run_pipeline_test.pl의 마지막 라인과 같은 형식으로 하지 않으면 잘 되지 않는다는 뜻이다.
MetAMOS 설치 뒤 가장 먼저 실행하는 run_pipeline_test.sh 스크립트는 FindScaffoldORFs 스텝에서 에러가 발생한다.
#/bin/sh ../initPipeline -f -m carsonella_pe_filt.fna -d test1 -i 500:3500 ../runPipeline -a soap -c kraken -g fraggenescan -p 15 -d test1 -k 55 -f Assemble,MapReads,FindORFS,Annotate,FunctionalAnnotation,Propagate,Classify,Abundance,FindScaffoldORFS -n FunctionalAnnotation
FindScaffoldORFs 스텝이 이 스크립트에서는 반드시 실시하는 것으로 되어있지만 실제로는 필수가 아니다. 매뉴얼을 살펴보면 이 단게의 목적은 “Find ORFs in scaffolds, mainly serves as an extra validation step after Scaffold”라 설명하였다. 이 에러를 피하려면 다음의 두 가지 방법이 있다.
-c kraken을 -c fcp(default)로 바꾸면 Annotate와 Classify는 제대로 작동한다. FCP가 default이므로 -c STRING 옵션을 아예 주지 않아도 될것 같으나 그렇지는 않다. 따라서 kraken의 설치상태가 완벽하지 않다고 보면 된다. 다른 위치에 설치한 minikraken_20141208 디렉토리를 /path/to/metAMOS-1.5rc3/Utilities/DB/kraken이란 명칭으로 심볼릭 링크를 만든 뒤 다시 실행하니 여전히 결과는 비어있다. 왜 그럴까? kraken을 실행한 커맨드를 찾아보았다.
Annotate를 담당하는 소프트웨어는 FCP, Kraken 그리고 PhyloSift 3종이다.
Abundance는 metaphyler가 담당한다.