Differences

This shows you the differences between two versions of the page.

--- bioinfo:kmer_analysis [2018/09/04 19:23] – [사용법] hyjeong
+++ bioinfo:kmer_analysis [2021/03/17 13:09] (current) – external edit 127.0.0.1
@@ Line 51: / Line 51: @@
 == Sequence filtering ==
 Sequence(read)를 대상으로 필터를 적용한다. 오염을 제거하거나 오염된 read를 추출할 때, 혹은 high coverage region을 추출하고자 할때 쓰인다. khmer에서는 abundance 값을 제공하지만 kat filter seq에서는 인수로 공급한 k-mer hash 파일을 참조하여 이를 갖는 sequence를 필터링한다. 여기에서도 -i 및 -s 옵션을 사용 가능하다. 그리고 khmer에서는 read를 검사하다가 제거할 k-mer를 만나면 그 이후를 전체 read에서 잘라버리지만 kat filter seq는 특정 k-mer를 일정 수준 이상 포함하는 read(-T arg로 설정)을 남긴다. 개인적으로 생각할 때 매우 독특한 동작이다.
+Filter sequences based on whether those sequences contain specific k-mers.
+The user loads a k-mer hash and then filters sequences (either in or out) depending on whether those
+sequences contain the k-mer or not.  The user can also apply a threshold requiring X% of k-mers to be
+in the sequence before filtering is applied.
 따라서 오염, 즉 low abundant k-mer를 지닌 read를 제거하려면 다음과 같이 해야 할 것이다.
@@ Line 56: / Line 62: @@
   - kat filter seq -i를 실행한다. 왜냐하면 위의 과정에서 얻는 k-mer를 갖지 **않는** read를 남겨야 하기 때문이다.
-다음의 예제는 50 count 미만의 k-mer hash를 먼저 찾아내고, 이를 일정 비율 이상 갖지 않는 read를 오염에 의한 것으로 간주하여 제거한다. MiSeq 기준의 300 bp read에 대해서 27-mer가 한번만 존재한다면 27/300 = 9%이다. 기본값인 0.1%로 해도 되겠다. 맨 마지막 단계에서 왜 -i 옵션을 줘야 하는지 잘 생각해 보라!
+다음의 예제는 50 count 미만의 k-mer hash를 먼저 찾아내고, 이를 일정 비율 이상 갖지 않는 read를 오염에 의한 것으로 간주하여 제거한다. MiSeq 기준의 300 bp read에 대해서 27-mer가 한번만 존재한다면 27/300 = 9%이다. 기본값인 0.1%로 해도 되겠다. 맨 마지막 단계에서 옵션을 줘야 하는가, 혹은 그렇지 않은가? 잘 생각해 보라!
   $ kat filter kmer --low_count=50 -i AH10_149ng_1.fastq AH10_149ng_2.fastq
   $ ls
   AH10_149ng_1.fastq  AH10_149ng_2.fastq  kat.filter.kmer-in.jf27
-  $ kat filter seq --threshold 0.1 -i AH10_149ng_1.fastq AH10_149ng_2.fastq kat.filter.kmer-in.jf27
+  $ kat filter seq --threshold 0.1 AH10_149ng_1.fastq AH10_149ng_2.fastq kat.filter.kmer-in.jf27
+  $ ls kat.filter*fastq
+  kat.filter.kmer.in.R1.fastq  kat.filter.kmer.in.R2.fastq