bioinfo:long_read_sequencing_결과물_다루기
Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
bioinfo:long_read_sequencing_결과물_다루기 [2023/08/17 09:15] – created hyjeong | bioinfo:long_read_sequencing_결과물_다루기 [2023/08/17 09:33] (current) – [Long read의 reference mapping] hyjeong | ||
---|---|---|---|
Line 6: | Line 6: | ||
시퀀싱 업체에서 제공하는 zip 파일의 압축을 풀면 각 SMRT cell마다 생성되는 디렉토리 하위에 Analysis_Results라는 서브디렉토리가 보일 것이다. 그 내부로 들어가면 각각 세 개씩의 subreads.fasta/ | 시퀀싱 업체에서 제공하는 zip 파일의 압축을 풀면 각 SMRT cell마다 생성되는 디렉토리 하위에 Analysis_Results라는 서브디렉토리가 보일 것이다. 그 내부로 들어가면 각각 세 개씩의 subreads.fasta/ | ||
- | 외부에서 입수한 PacBio raw data에는 일반 연구자에게 친숙한 fasta/fastq 파일이 없이 HDF5 파일만 들어있는 경우가 있다. 이러한 상황에서는 pbh5tools에서 제공하는 bash5tools.py(사용법)을 사용하여 필터링을 거친 read를 추출할 수 있다. bash5tools.py는 시스템에 설치된 python 환경에 존재한다. --readType으로 선택할 수 있는 것은 ccs, subreads 및 unrolled이다. | + | 외부에서 입수한 PacBio raw data에는 일반 연구자에게 친숙한 fasta/fastq 파일이 없이 HDF5 파일만 들어있는 경우가 있다. 이러한 상황에서는 pbh5tools에서 제공하는 bash5tools.py(사용법)을 사용하여 필터링을 거친 read를 추출할 수 있다. bash5tools.py는 시스템에 설치된 python 환경에 존재한다. |
$ cd Analysis_Results | $ cd Analysis_Results | ||
Line 13: | Line 13: | ||
===== Oxford Nanopore data(MinION 시퀀싱 결과물) ===== | ===== Oxford Nanopore data(MinION 시퀀싱 결과물) ===== | ||
+ | |||
+ | ===== De novo assembly ===== | ||
+ | |||
+ | ==== Canu ==== | ||
+ | |||
+ | 진핵생물의 유전체의 경우 20x 정도의 시퀀싱 데이터만 있어도 canu를 사용하면 현존하는 hybrid method를 능가하는 결과를 얻을 수 있다. 그러나 최소 30~60x 정도의 데이터로 조립을 시작하는 것이 바람직하다. 다음은 25x의 대장균 PacBio 시퀀싱 데이터를 다운로드하여 조립하는 명령어이다. Nanopore data는 -nanopore 옵션을 사용한다(샘플 데이터 다운로드 [[https:// | ||
+ | |||
+ | $ curl -L -o pacbio.fastq http:// | ||
+ | $ canu -p ecoli -d ecoli-pacbio | ||
+ | | ||
+ | 조립 결과물 중 < | ||
+ | |||
+ | > | ||
+ | > | ||
+ | |||
+ | Contig와 unitig에 대한 보다 정확한 의미는 [[https:// | ||
+ | |||
+ | 위에서 소개한 명령어는 raw long read의 correction, trimming, 그리고 조립을 한 번의 명령어로 진행하는 사례를 보인 것이지만, | ||
+ | ==== UniCycler ==== | ||
+ | |||
+ | [[https:// | ||
+ | |||
+ | 일반적인 hybrid assembly에서는 short read(일루미나)를 long read에 정렬하여 오류를 정정한 뒤 이를 이용하여 overlap-layout-consesus 기법의 조립을 수행하게 된다. 그러나 [[https:// | ||
+ | |||
+ | 사용하는 thread의 수는 -t 또는 %%--%%threads 옵션으로 지정하지 않으면 8을 기본으로 택한다. 사용하는 thread의 수는 -t 또는 --threads 옵션으로 지정하지 않으면 8을 기본으로 택한다. 실행 모드는 conservative, | ||
+ | |||
+ | {{ : | ||
+ | |||
+ | $ unicycler -1 short_1.fastq -2 short_2.fastq -l long.fasta -o OUT_DIR -t 16 | ||
+ | |||
+ | 신뢰할 수 있는 [[http:// | ||
+ | ==== Flye ==== | ||
+ | |||
+ | [[https:// | ||
+ | |||
+ | -t 또는 %%--%%threads 파라미터는 지정하지 않을 경우 1이 주어지므로 컴퓨터의 상황에 맞게 적절히 설정한다. %%--%%genome size는 유전체 크기의 0.5에서 2배까지 여유롭게 설정하여도 결과에는 큰 영향을 미치지 않으니 정확하게 값을 주지 않아도 된다. 거대 유전체를 조립하는 경우 메모리 사용량을 줄이기 위해 긴 read 위주로 초기에 사용할 데이터를 제한할 수 있다(%%--%%asm-coverage). 보통 40x coverage면 무난하며, | ||
+ | |||
+ | $ flye --threads 16 --nano-raw barcode01.fastq --out-dir results --asm-coverage 40 --genome-size 4m --plasmids | ||
+ | |||
+ | Flye는 [[https:// | ||
+ | |||
+ | $ cat assembly_info.txt | ||
+ | # | ||
+ | contig_2 3646351 115 Y N 1 * 2 | ||
+ | contig_1 5973 486 Y Y 4 * 1 | ||
+ | |||
+ | ==== Assembly graph의 구조 확인 ==== | ||
+ | |||
+ | LastGraph(Velvet), | ||
+ | |||
+ | $ Bandage load assembly_graph.gfa | ||
+ | |||
+ | 인수 없이 Bandage라고만 입력하면 Bandage GUI가 작동하게 되며, File -> Load graph에서 그래프를 로드한 뒤 ‘Drawu graph’ 버튼을 클릭하면 화면에 시각화된 그래프가 표현된다. | ||
+ | ===== Long read의 reference mapping ===== | ||
+ | |||
+ | 일루미나 시퀀싱 데이터에 비하여 indel 형태의 오류를 상당한 수준으로 내포하고 있는 long read는 일반적인 read mapping 소프트웨어를 이용하여 reference 서열에 매핑하기가 어렵다. PacBio에서는 자사의 long read에 특화된 long read aligner인 BLASR을 제공하고 있다. BWA가 제공하는 세 가지 알고리즘인 BWA-backtrack, | ||
+ | |||
+ | # Map short accurate genomic reads | ||
+ | $ minimap2 -ax sr ref.fa read1.fq read2.fq > aln.sam | ||
+ | # Map long and noisy genomic reads | ||
+ | $ minimap2 -ax map-pb ref.fa pacbio-reads.fq > aln.sam # for Pacbio subreads | ||
+ | $ minimap2 -ax map-ont ref.fa ont-reads.fq > aln.sam # for Oxford Nanopore reads | ||
+ | # Convert SAM to BAM | ||
+ | $ samtools view –b –S –o aln.bam aln.sam # samtools version # 1.9 (for ' | ||
+ | | ||
bioinfo/long_read_sequencing_결과물_다루기.1692231322.txt.gz · Last modified: by hyjeong