This is an old revision of the document!

Long read sequencing 결과물 다루기

외부 시퀀싱 업체에서 long read 기반의 미생물 유전체 해독을 의뢰하는 경우 대부분 de novo assembly를 하여 완성 수준의 contig 서열을 만들어 제공하게 된다. 그러나 raw data를 직접 다루거나 자체적으로 조립을 실시하여 여러 가지 측면에서 평가를 하는 것이 중요할 때가 있다. Canu 또는 SPAdes와 같이 널리 쓰이는 assembler는 short/long read data의 단독 조립 및 hybrid assembly 기능도 제공한다. 호주 멜버른 대학에서 제공하는 Long read assembly workshop의 자료를 검토해 보는 것도 본 과정을 이해하는데 도움이 될 것이다.

PacBio 데이터

시퀀싱 업체에서 제공하는 zip 파일의 압축을 풀면 각 SMRT cell마다 생성되는 디렉토리 하위에 Analysis_Results라는 서브디렉토리가 보일 것이다. 그 내부로 들어가면 각각 세 개씩의 subreads.fasta/subreads.fastq/bax.h5와 하나의 bas.h5 파일이 존재한다. Bas.h5/bax.h5 파일은 PacBio RSII 장비의 primary analysis pipeline을 거쳐서 만들어지는 주된 출력물이다(bas.h5 Reference Guide). 이들 HDF5 파일은 SMRT Analysis 또는 SMRT Link 프로그램을 설치하여 PacBio data의 de novo assembly나 resequencing analysis를 실시할 목적이 아니라면 직접 이용할 일은 많지 않다.

외부에서 입수한 PacBio raw data에는 일반 연구자에게 친숙한 fasta/fastq 파일이 없이 HDF5 파일만 들어있는 경우가 있다. 이러한 상황에서는 pbh5tools에서 제공하는 bash5tools.py(사용법)을 사용하여 필터링을 거친 read를 추출할 수 있다. bash5tools.py는 시스템에 설치된 python 환경에 존재한다. --readType으로 선택할 수 있는 것은 ccs, subreads 및 unrolled이다.

$ cd Analysis_Results
$ bash5tools.py *bas.h5 --outFilePrefix myreads --outType fasta --readType subreads --minReadScore 0.75

Oxford Nanopore data(MinION 시퀀싱 결과물)

De novo assembly

Canu

UniCycler

Flye

2019년 Nature Biotechnology를 통하여 공개된 Flye는 원핵생물 유전체 조립 성능 비교를 위한 벤치마킹에서 Miniasm/Minipolish와 더불어 가장 우수한 성능을 나타낸 것으로 알려져 있다(참고 문헌).

-t 또는 --threads 파라미터는 지정하지 않을 경우 1이 주어지므로 컴퓨터의 상황에 맞게 적절히 설정한다. --genome size는 유전체 크기의 0.5에서 2배까지 여유롭게 설정하여도 결과에는 큰 영향을 미치지 않으니 정확하게 값을 주지 않아도 된다. 거대 유전체를 조립하는 경우 메모리 사용량을 줄이기 위해 긴 read 위주로 초기에 사용할 데이터를 제한할 수 있다(--asm-coverage). 보통 40x coverage면 무난하며, 조립 마지막 단계에서는 모든 데이터를 다 사용하게 되므로 걱정할 필요는 없다. --plasmids 옵션은 short unassembled read를 extra contig로 처리하는 별도의 단계를 거치게 한다.

$ flye --threads 16 --nano-raw barcode01.fastq --out-dir results --asm-coverage 40 --genome-size 4m --plasmids

Flye는 assembly_info.txt라는 tab-delimited text 파일에 contig의 길이와 coverage 및 원형 구조 등에 대한 정보를 기록한다. Circ. = Y로 표시된 contig는 이미 circularization이 되었기 때문에 양 말단에 중복되는 염기서열이 존재하지 않는다.

$ cat assembly_info.txt 
#seq_name	length	cov.	circ.	repeat	mult.	alt_group	graph_path
contig_2	3646351	115	Y	N	1	*	2
contig_1	5973	486	Y	Y	4	*	1

Genome Informatics Laboratory at KRIBB

Table of Contents