User Tools

Site Tools


bioinfo:kmer_analysis

This is an old revision of the document!


K-mer analysis software

khmer

SGA preqc

KAT - The K-mer Analysis Toolkit

일반 정보

  • 논문: KAT: a K-mer analysis toolkit to quality control NGS datasets and genome assemblies. Bioinformatics (2016) PubMed

설치

bioconda를 이용하여 설치하였다. CentOS 6.x에서 bioconda로 설치한 gnuplot은 약간 까다로운 에러를 발생한다.

gnuplot: error while loading shared libraries: libjpeg.so.8: cannot open shared object file: No such file or directory

차라리 $PATH 맨 앞에 /usr/local/bin(/gnuplot version 5.0 patchlevel 3)이 오게 만들어서 실행하는 것이 나을 것이다. 그러나 'set terminal png large size 1024,1024'를 문법적 에러로 인식할 수도 있다. 그래도 png 그림은 만들어진다.

gnuplot> set terminal png large size 1024,1024
                          ^
         line 0: unrecognized terminal option

사용법

도움말 보기

$ kat
$ kat gcp
$ kat filter seq

Hist mode

Distinct k-mer의 히스토그램 파일(.hist)과 spectra hist plot(.hist.png)을 만든다.

$ kat hist AH10_149ng_1.fastq  AH10_149ng_2.fastq
$ ls
AH10_149ng_1.fastq AH10_149ng_2.fastq kat.hist kat.hist.png

GCP mode

Distinct k-mer의 GC content를 계산하여 matrix(.mx) 및 density plot(.mx.png)을 만든다.

$ kat kat gcp AH10_149ng_1.fastq AH10_149ng_2.fastq
$ ls
AH10_149ng_1.fastq AH10_149ng_2.fastq kat-gcp.mx kat-gcp.mx.png  

K-mer count hash의 비교

Filtering

K-mer filtering

이것은 read 단위가 아니라 사용자 정의 기준값 이내(혹은 바깥)에 위치하는 k-mer 자체를 뽑아내는 것이다.

$ kat filter kmer --low_count=200 --high_count=500 --low_gc=2 --high_gc=18 AH10_149ng_1.fastq AH10_149ng_2.fastq
$ ls
AH10_149ng_1.fastq AH10_149ng_2.fastq kat.filter.kmer-in.jf27
Sequence filtering

Sequence(read)를 대상으로 필터를 적용한다. 오염을 제거하거나 오염된 read를 추출할 때, 혹은 high coverage region을 추출하고자 할때 쓰인다.

bioinfo/kmer_analysis.1536040192.txt.gz · Last modified: 2021/03/17 13:09 (external edit)