User Tools

Site Tools


application_of_pacbio_long_reads_sequencing_technology

This is an old revision of the document!


Application of PacBio long-reads sequencing technology (software)

이 페이지는 Oxford Nanopore Technologies(ONT)의 sequencing 응용도 포함할 수 있도록 개편되어야 한다. 즉, long read, single molecule 기반의 염기서열 해독을 전부 망라하도록 한다.

읽을 자료

phh5tools

A Swiss-army knife for interrogating PacBio HDF5 files (cmp.h5, bas.h5)

  • Unordered List Itemhttps:github.com/PacificBiosciences/pbh5tools * 사용법은 https://github.com/PacificBiosciences/pbh5tools/blob/master/doc/index.rst 참조 –readType은 ccs, subreads, unrolled. ccs는 bas.h5 파일 내부에 ccs read가 있는 경우에 뽑아낸다. unrolled는 어떤 것인지 잘 모르겠다. $ bash5tools input.bas.h5 –outFilePrefix myreads –outType fasta –readType subreads [–minReadScore 0.75] ===== SMRT analysis ===== * SMRT analysis system requirements PDF 문서 * v2.3.0 installation guide PDF 문서 ===== Canu ===== 공식 documentation ==== 일단 실행하기 ==== $ canu -p BRC5 -d canu_BRC5-3cells_2nd genomeSize=3.7m useGrid=false -pacbio-raw BRC5_raw/BRC5-3cells_raw.fasta gnuplot과 관련한 에러가 나면 다음의 메시지를 참고한다. 명령행에서 'gnuplot'을 입력하여 아무런 오류 없이 잘 실행이 된다면 상관이 없다. ERROR: Failed to run gnuplot from 'gnuplot'.ERROR: Set option gnuplot=<path-to-gnuplot> or gnuplotTested=true to skip this test and not generate plots. 진짜 raw data를 그대로 쓸 것인가, 아니면 SMRT portal에서 filtered read를 회수하여 쓸 것인가? ===== SPAdes ===== ===== Falcon ===== ===== CLC Genomics Workbench ===== ===== Unicycler (hybrid assembler) ===== * (논문) Unicycler: Resolving bacterial genome assemblies from short and long sequencing reads (2017) PMC * GitHub Quick usage Unicycler는 매우 최근에 공개된 short-read-first hybrid assembler이다. GFA 형식의 assembly graph는 같은 개발자가 2015년에 발표한 Bandage(PubMed GitHub Documentation)으로 시각화하면 좋다. Circlator와 같은 외부 tool 없이도 circularization을 해 준다. ==== 설치 ==== Bioconda(py35 environment)로 /data/anaconda2에 설치하였다. === 사용법 === $ unicycler -t 24 -1 MA-KW_1.fastq -2 MA-KW_2.fastq -l MA-KW_pacbio.fastq -o unicycler_run_20180518_1 이전 실행에서 이미 교정한 read를 사용하여 재조립을 한다면 다음과 같이 실행하여 시간을 줄일 수 있을 것이다. $ unicycler -t 24 -l CorrectedReads_1.fastq.gz -2 CorrectedReads_2.fastq.gz -s unparedShortReads.fastq –no_correct -l longreads.gz -o outDirectory
application_of_pacbio_long_reads_sequencing_technology.1542963178.txt.gz · Last modified: (external edit)