application_of_pacbio_long_reads_sequencing_technology
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
application_of_pacbio_long_reads_sequencing_technology [2018/11/23 17:54] – [phh5tools] hyjeong | application_of_pacbio_long_reads_sequencing_technology [2021/03/17 13:09] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 8: | Line 8: | ||
* [[https:// | * [[https:// | ||
- | ===== phh5tools | + | ===== pbh5tools |
A Swiss-army knife for interrogating PacBio HDF5 files (cmp.h5, bas.h5) | A Swiss-army knife for interrogating PacBio HDF5 files (cmp.h5, bas.h5) | ||
- | |||
* https:// | * https:// | ||
* https:// | * https:// | ||
- | --readType은 ccs, subreads, unrolled. ccs는 bas.h5 파일 내부에 ccs read가 있는 경우에 뽑아낸다. unrolled는 어떤 것인지 잘 모르겠다. | + | * **bash5tools.py** can extract read sequences and quality values for both Raw and circular consensus sequencing (CCS) readtypes and use create fastq and fasta files. |
+ | * **cmph5tools.py**는 PacBio Alignment File Format(cmp.h5, | ||
+ | |||
+ | --readType은 ccs, subreads, unrolled. ccs는 bas.h5 파일 내부에 ccs read가 있는 경우에 뽑아낸다. unrolled는 어떤 것인지 잘 모르겠다. 이것이 바로 raw read 그대로를 의미하는 것일까? | ||
+ | |||
+ | $ bash5tools.py input.bas.h5 --outFilePrefix myreads --outType fasta --readType subreads --minReadScore 0.75 | ||
+ | |||
+ | Analysis Results 서브디렉토리에 있는 p0.[1-3].subreads.fast{a|q} 파일의 수치와 bash5tools.py를 이용해서 bas.h5 파일로부터 추출한 read의 수치를 비교해 보았다. 2번 항목부터 bash5tools.py를 이용한 것이다. | ||
- | | + | |
+ | | ||
+ | | ||
+ | - (--readType subreads | ||
+ | - (--readType subreads **--minReadScore 0.75**): 1339662407 bp / 124756 seqs; 10738.3 average length | ||
+ | - (--readType subreads --minReadScore 0.8): 1287559618 bp / 118740 seqs; 10843.5 average length | ||
+ | - (--readType subreads --minReadScore 0.85): 1038658565 bp / 92346 seqs; 11247.5 average length | ||
+ | - (--readType subreads --minReadScore 0.9): 654807 bp / 121 seqs; 5411.6 average length | ||
+ | - (--readType subreads --minReadScore 0.95): no sequence extracted! | ||
+ | --minReadScore가 0.9에 근접하면서 결과물의 분량이 현저히 떨어진다. --minReadScore 0.75로 하는 것이 Analysis Results 서브디렉토리에 있는 subreads file의 분량과 거의 흡사하다. | ||
===== SMRT analysis ===== | ===== SMRT analysis ===== | ||
* SMRT analysis system requirements [[http:// | * SMRT analysis system requirements [[http:// |
application_of_pacbio_long_reads_sequencing_technology.1542963270.txt.gz · Last modified: (external edit)