User Tools

Site Tools


manipulation_of_fastq_files

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
manipulation_of_fastq_files [2017/05/17 13:26] – [기타 유용한 유틸리티] hyjeongmanipulation_of_fastq_files [2022/03/30 09:07] (current) – [포맷 전환 3: one interleaved file => two paired files] hyjeong
Line 7: Line 7:
   $ seqtk seq -a infile.fastq > outfile.fa # Seqtk   $ seqtk seq -a infile.fastq > outfile.fa # Seqtk
   $ fq2fa --merge --filter infile_1.fastq infile_2.fastq oufile.fa # idba에 포함된 명령어   $ fq2fa --merge --filter infile_1.fastq infile_2.fastq oufile.fa # idba에 포함된 명령어
 +  $ (slow!) paste - - - - < infile.fastq | cut -f 1,2 | sed 's/^@/>/' | tr "\t" "\n" > outfile.fa
      
 마지막 실행문은 paired file(2개)을 하나의 interleaved file로 병합하면서 동시에 N을 포함한 read를 제거하는 것이다. fq2fa --paired는 실제로 효과가 있는지를 잘 모르겠다.  마지막 실행문은 paired file(2개)을 하나의 interleaved file로 병합하면서 동시에 N을 포함한 read를 제거하는 것이다. fq2fa --paired는 실제로 효과가 있는지를 잘 모르겠다. 
Line 16: Line 17:
  
 ===== 포맷 전환 3: one interleaved file => two paired files ===== ===== 포맷 전환 3: one interleaved file => two paired files =====
-  $ seqtk seq -1 infile.pe.fastq > outfile_1.fastq; seqrtk seq -2 infile.pe.fastq > outfile_2.fastq+  $ seqtk seq -1 infile.pe.fastq > outfile_1.fastq; seqtk seq -2 infile.pe.fastq > outfile_2.fastq
  
 ===== 포맷 전환 4: one imperfect interleaved file => paired files + orphan file ===== ===== 포맷 전환 4: one imperfect interleaved file => paired files + orphan file =====
Line 53: Line 54:
 ===== 기타 유용한 유틸리티 ===== ===== 기타 유용한 유틸리티 =====
   * [[http://hannonlab.cshl.edu/fastx_toolkit/|FASTX-Toolkit]] - 더 이상 설명이 필요없는 FASTQ/A 파일 처리 유틸리티의 고전. 아직도 버전은 0.0.14이다.   * [[http://hannonlab.cshl.edu/fastx_toolkit/|FASTX-Toolkit]] - 더 이상 설명이 필요없는 FASTQ/A 파일 처리 유틸리티의 고전. 아직도 버전은 0.0.14이다.
-  * [[https://github.com/lh3/seqtk|seqtk]]+  * [[https://github.com/lh3/seqtk|seqtk]]: toolkit for processing sequences in FASTA/Q formats 
 +  * [[http://bioinf.shenwei.me/seqkit/|seqkit]]: a cross-platform and ultrafasta toolkit for FASTA/Q file manaipulation
   * [[https://github.com/najoshi/sickle|sickle]] - a windowed adaptive trimming tools for FASTQ files using quality   * [[https://github.com/najoshi/sickle|sickle]] - a windowed adaptive trimming tools for FASTQ files using quality
   * [[http://compbio.brc.iop.kcl.ac.uk/software/cmpfastq.php|cmpfastq]] - a simple perl program that allows the user to compare QC filtered fastq files. 퍄일 짝을 맞추는 가장 원초적인 도구이다. 그러나 최신 MiSeq read에 대해서는 read ID를 parsing하는 방법이 잘 작동하지 않을 수 있다([[http://seqanswers.com/forums/showthread.php?t=24032|Problems with cmpfastq, can't process my fastq /1 and /2 files]]). 이에 대해서는 [[https://sourceforge.net/projects/bbmap/|BBMap]] 패키지의 repair.sh를 사용하라는 [[http://seqanswers.com/forums/showpost.php?p=141460&postcount=45|제안]]이 있었다.   * [[http://compbio.brc.iop.kcl.ac.uk/software/cmpfastq.php|cmpfastq]] - a simple perl program that allows the user to compare QC filtered fastq files. 퍄일 짝을 맞추는 가장 원초적인 도구이다. 그러나 최신 MiSeq read에 대해서는 read ID를 parsing하는 방법이 잘 작동하지 않을 수 있다([[http://seqanswers.com/forums/showthread.php?t=24032|Problems with cmpfastq, can't process my fastq /1 and /2 files]]). 이에 대해서는 [[https://sourceforge.net/projects/bbmap/|BBMap]] 패키지의 repair.sh를 사용하라는 [[http://seqanswers.com/forums/showpost.php?p=141460&postcount=45|제안]]이 있었다.
   * Brian Bushnell(JGI)의 [[http://jgi.doe.gov/data-and-tools/bbtools/|BBTools]] - 어쩌면 모든 해답이 여기에 다 들어있는지도 모른다.   * Brian Bushnell(JGI)의 [[http://jgi.doe.gov/data-and-tools/bbtools/|BBTools]] - 어쩌면 모든 해답이 여기에 다 들어있는지도 모른다.
 +  * trimmomatic
 +  * khmer
  
  
manipulation_of_fastq_files.1494995190.txt.gz · Last modified: 2021/03/17 13:09 (external edit)