ont_sequencing_data_analysis
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revisionLast revisionBoth sides next revision | ||
ont_sequencing_data_analysis [2018/09/06 14:22] – [Official genome assembly, consensus, and polishing tools] hyjeong | ont_sequencing_data_analysis [2019/09/17 13:34] – [QC using poretools] hyjeong | ||
---|---|---|---|
Line 3: | Line 3: | ||
* MinION Mk1B (product code MIN-101B) | * MinION Mk1B (product code MIN-101B) | ||
* Flow cell: Spot-On Flow cell MkI (product code FLO-MIN106 R9) | * Flow cell: Spot-On Flow cell MkI (product code FLO-MIN106 R9) | ||
- | * 구동용 컴퓨터: Xeon E5520 @2.27, 16 GB memory, Ubuntu 14.04.5 LTS | + | * 구동용 컴퓨터 |
+ | * 구동용 컴퓨터 II: microbe server(Xeon E5-2640 x 2, SuperMicro X9DRI-F)에 같은 OS와 카드를 설치하였으나 인식이 되지 않음. / | ||
+ | |||
+ | GRUB_CMDLINE_LINUX=" | ||
+ | GRUB_CMDLINE_LINUX_DEFAULT=" | ||
+ | |||
+ | EPI2ME에서는 더 이상 basecall을 진행하지 않으므로 Albacore를 설치하여 local basecalling을 하라는 고객 센터의 알림이 있었다. 단, MinKNOW 설정 창의 Basecalling(Live or None 중에 선택)에서 나타나는 Live basecalling은 Albacore를 뜻하는 것이 아니라 1D sequencing protocol을 위해 내장된 것이다. 파이썬 2.7과 3.5(Albacore)를 번갈아 이용해야 하므로 pyenv를 활용하는 것을 권장한다. 혹은 anaconda도 좋다. | ||
+ | ===== 새로 시작하기 ===== | ||
+ | 이 글은 2019년 5월 2일부터 작성하기 시작한다. 다음 섹션(처음에 해야 할 것) 이후의 글은 더 이상 유효하지 않다. MinKNOW를 이용하면 albacore를 별도로 설치하지 않아도 basecalling이 진행되고, | ||
+ | ==== Best long read mapper? ==== | ||
+ | 한동안 BWA-mem이 널리 쓰여 왔으나, 이제는 pomoxis에 포함되어 있는 minimap2가 최선인 것으로 보인다([[https:// | ||
- | EPI2ME에서는 더 이상 basecall을 진행하지 않으므로 Albacore를 설치하여 local basecalling을 하라는 고객 센터의 알림이 있었다. 단, MinKNOW 설정 창의 Basecalling(Live or None 중에 선택)에서 나타나는 Live basecalling은 Albacore를 뜻하는 것이 아니라 1D sequencing protocol을 위해 내장된 것이다. 파이썬 2.7과 3.5(Albacore)를 번갈아 이용해야 하므로 pyenv를 활용하는 것을 권장한다. | ||
===== 처음에 해야 할 것 ===== | ===== 처음에 해야 할 것 ===== | ||
==== 프로그램 설치 ==== | ==== 프로그램 설치 ==== | ||
Line 24: | Line 33: | ||
===== Official genome assembly, consensus, and polishing tools ===== | ===== Official genome assembly, consensus, and polishing tools ===== | ||
2017년 7월 30일 Nanopore Community를 통한 공지([[https:// | 2017년 7월 30일 Nanopore Community를 통한 공지([[https:// | ||
- | * **Pomoxis** is a suit of tools for working with nanopore data. [[https:// | + | * **Pomoxis**[[https:// |
- | * **Medaka** presents a framewalk for error correcting sequencing data. Proxis de novo assembly 후 polishing step으로 사용하며, | + | * **Medaka** |
Line 33: | Line 42: | ||
만약 ONT cloud에서 basecall을 했다면(즉 Metrichor를 이용했다면) 업로드된 fast5 파일은 처리를 거쳐서 pass와 fail 디렉토리로 나뉘어 다운로드된다. pass에는 바코드에 의해 성공적으로 분리되고 사전에 정의된 threshold를 넘는 mean base quality score를 넘는 read들이 쌓인다. | 만약 ONT cloud에서 basecall을 했다면(즉 Metrichor를 이용했다면) 업로드된 fast5 파일은 처리를 거쳐서 pass와 fail 디렉토리로 나뉘어 다운로드된다. pass에는 바코드에 의해 성공적으로 분리되고 사전에 정의된 threshold를 넘는 mean base quality score를 넘는 read들이 쌓인다. | ||
===== QC using poretools ===== | ===== QC using poretools ===== | ||
- | [[https:// | + | [[https:// |
poretools에서는 유용한 diagnostic plot을 만들어내는 기능이 있다. 그러나 십중팔구 다음과 같은 에러 메시지가 나올 가능성이 크다. 참고로 Tkinter는 파이썬 모듈, _tkinter는 C 모듈이다. | poretools에서는 유용한 diagnostic plot을 만들어내는 기능이 있다. 그러나 십중팔구 다음과 같은 에러 메시지가 나올 가능성이 크다. 참고로 Tkinter는 파이썬 모듈, _tkinter는 C 모듈이다. | ||
Line 77: | Line 86: | ||
done | done | ||
===== Mapping ===== | ===== Mapping ===== | ||
- | bwa 0.7.12-r1039, | + | bwa 0.7.12-r1039, |
$ bwa index reference.fasta | $ bwa index reference.fasta | ||
- | $ bwa mem -x on2d reference.fasta sample2D.fasta | samtools view -bS - | samtools sort -o sample2D.sorted.bam | + | $ bwa mem -x ont2d reference.fasta sample2D.fasta | samtools view -bS - | samtools sort -o sample2D.sorted.bam |
$ samtools index sample2D.sorted.bam | $ samtools index sample2D.sorted.bam | ||
$ samtools stats sample2D.sorted.bam > sample2D.stats.txt | $ samtools stats sample2D.sorted.bam > sample2D.stats.txt | ||
Line 93: | Line 102: | ||
* What was the average length of the reads? | * What was the average length of the reads? | ||
- | ===== Assembly의 교정(Racon 사용) | + | ===== Assembly의 교정 ===== |
- | Racon is intended as a standalone consensus module to correct raw contigs generated by rapid assembly methods which do not include a consensus step. Mapping file이 필요하다. Canu로 만든 assembly를 교정하는 사례는 다음과 같다. | + | ==== Racon ==== |
+ | |||
+ | [[https:// | ||
+ | |||
+ | $ racon [options ...] < | ||
+ | |||
+ | Mapping file이 필요하다. Canu로 만든 assembly를 교정하는 사례를 생각해 보자. overlap 정보를 어떻게 만들 것인가? | ||
+ | - bwa를 사용? 그렇다면 raw read 혹은 corrected (trimmed) reads? | ||
+ | - minimap2를 사용? 그렇다면 raw read 혹은 corrected (trimmed) reads? | ||
$ bwa index CANU.unitigs.fasta | $ bwa index CANU.unitigs.fasta | ||
- | $ bwa mem -x ont2 -t 16 CANU.unitigs.fasta ... | + | $ bwa mem -x ont2 -t 16 CANU.unitigs.fasta ... (작성 예정) |
+ | |||
+ | ==== Medaka ==== | ||
+ | https:// | ||
+ | |||
+ | python 3.5 환경이 필요하므로, | ||
+ | |||
+ | $ cd / | ||
+ | $ source venv/ | ||
===== NanoOK ===== | ===== NanoOK ===== | ||
[[https:// | [[https:// |
ont_sequencing_data_analysis.txt · Last modified: 2021/03/17 13:09 by 127.0.0.1