User Tools

Site Tools


scaffolding

Mate-pair library read(Ion Torrent)를 이용한 scaffolding

개요

Mate-pair library read는 일반적으로 Illumina platform에서 생성하게 되지만, Ion Torrent에서도 생산 가능하다. (rev, for) 방향의 paired file을 만들어내는 Illumina와는 달리 Ion Torrent에서는 라이브러리 구조상 하나의 read에 di-tag이 들어있게 되므로 sff_extract(+ssha2)로 이를 분리해야 하고, 방향에도 유의해야 한다. 본 실습에서는 Shigella boydii ATCC 9210에서 SOLiD 5500 mate-pair library kit로 만든 3 kb 라이브러리 유래 read(SRA accession: SRX1585054)를 사용하였다.

SSPACE(논문 링크)는 최신 버전이 아니라 A5-miseq에 포함된 v1-1(2010년 11월 배포)을 사용한다.

$ export PATH=$PATH:/usr/local/Bio/bowtie2-2.2.6
$ export PATH=$PATH:/usr/local/Bio/a5_miseq_linux_20140604/bin
$ export PATH=$PATH:/usr/local/Bio/ssaha2_v2.5.5_x86_64
$ export PATH=$PATH:/usr/local/Bio/bin (for sff_extract, SolexaQA++, getinsertsize.py)

Di-tag의 분리 및 quality trimming

(주의) sed 실행에서는 read의 서열 ID 실제 형태에 맞는 패턴을 주어야 한다.

$ sff_extract -l linkers.fasta -s SB_iontor.fastq SB_0628.sff
$ SolexaQA++ dynamictrim SB_iontor.fastq –-torrent (default: P = 0.05)
$ sed -n '/^@BYI6V.*\/1$/{N;N;N;p;}' SB_iontor.fastq.trimmed > SB-trimmed_1.fastq
$ sed -n '/^@BYI6V.*\/2$/{N;N;N;p;}' SB_iontor.fastq.trimmed > SB-trimmed_2.fastq
[optional] SolexaQA++ lengthsort SB-trimmed_1.fastq SB-trimmed_2.fastq -l 40

linkers.fasta

>IA
CTGCTGTACCGTACATCCGCCTTGGCCGTACAGCAG
>IA_revcom
CTGCTGTACGGCCAAGGCGGATGTACGGTACAGCAG

(optional) Reference mapping을 통한 read 방향과 quality 확인

$ bowtie2-build SB_clc.fa SB
$ bowtie2 -x SB -2 SB-trimmed_1.fastq -1 SB-trimmed_2.fastq --ff -I 800 -X 5000 -S tmp.sam
$ samtools view -b -S -o tmp.bam tmp.sam
$ samtools view tmp.bam | getinsertsize.py -

SSPACE를 이용한 scaffolding

A5-miseq에 포함된 구 버전의 SSPAE(v1-1)는 paired end(→ ←, 0)와 mate-pair(← →, 1)만을 지원하므로, Ion Torrent에서 만들어진 mate-pair library read(RR, ← ←)를 사용하기 위해서는 read file 중 하나를 reverse complementary로 전환해야 한다. 또한 라이브러리 정보 파일의 형식도 다르다.

$ seqtk seq -r SB-trimmed_1.fastq > 1rc.fastq
$ seqtk seq -r SB-trimmed_2.fastq > 2rc.fastq
$ path-to-SSPACE/SSPACE -l library.txt -s SB_clc.fa -k 5 -a 0.7 -x 1 -b SB_SSPACE_ext
$ cat SB_SSPACE_ext.summaryfile.txt

SSPACE v1-1의 library file

library.txt와 library2.txt 중 하나를 선택하여 사용하면 됨

$ cat library.txt
PGM_mate-pair-library SB-trimmed_1.fastq 2rc.fastq 3000 0.5 1
$cat library2.txt
PGM_mate-pair-library 1rc.fastq SB-trimmed_2.fastq 3000 0.5 0

SSPACE v3.0의 library file 사례

Lib1 bwa file1.1.fasta file1.2.fasta 400 0.25 FR
Lib1 bowtie file2.1.fasta file2.2.fasta 400 0.25 FR
Lib2 bwasw file3.1.fastq file3.2.fastq 4000 0.5 RF
Lib2 TAB file4.tab 4000 0.5 RF
Lib3 TAB file5.tab 10000 0.5 RF
unpaired bowtie unpaired_reads1.fasta
unpaired bwasw unpaired_longreads1.gz
scaffolding.txt · Last modified: 2021/03/17 13:09 by 127.0.0.1