bioinfo:참조_서열에_대한_매핑_reference_mapping_및_시각화
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
bioinfo:참조_서열에_대한_매핑_reference_mapping_및_시각화 [2023/06/21 14:53] – [SAM/BAM에서 mapped read를 pair 형태로 추출하기] hyjeong | bioinfo:참조_서열에_대한_매핑_reference_mapping_및_시각화 [2024/07/05 10:04] (current) – [Mapping의 실제] hyjeong | ||
---|---|---|---|
Line 6: | Line 6: | ||
===== Mapping의 실제 ===== | ===== Mapping의 실제 ===== | ||
- | 샘플로 사용할 Illumina sequencing read는 [[https:// | + | 샘플로 사용할 Illumina sequencing read는 |
# 실습용 raw data의 설명은 https:// | # 실습용 raw data의 설명은 https:// | ||
Line 26: | Line 26: | ||
$ samtools view -b -S -o BL21.bam BL21.sam | $ samtools view -b -S -o BL21.bam BL21.sam | ||
| | ||
- | SAM 파일의 대부분을 구성하는 read alignment 필드에서 두 번째 필드(flag, | + | SAM 파일의 대부분을 구성하는 read alignment 필드에서 두 번째 필드(flag, |
$ samtools flagstat BL21.bam | $ samtools flagstat BL21.bam | ||
Line 128: | Line 128: | ||
Read unmapped에 대한 SAM flag이 4(samtools view -f 0x04)이므로 이 조건에 반대되는 모든 read(-F 0x04)가 mapped read에 해당한다. 그러나 properly mapped reads, 즉 mapping된 mate의 거리와 간격이 라이브러리의 크기의 평균적 분포를 만족하는 것을 고르려면 -f 0x03(0x01 for read paired; 0x02 for read mapped in proper pair; paired read의 경우 두 flag는 동시에 쓰여야 함)을 적용해야 한다. 후속 분석 작업의 목적에 따라서는 mate 중 어느 하나만 mapping이 되었어도 read pair를 전부 추출하고 싶은 경우도 있을 것이다. SAM 및 BAM 필터링의 사례에 대해서는 [[https:// | Read unmapped에 대한 SAM flag이 4(samtools view -f 0x04)이므로 이 조건에 반대되는 모든 read(-F 0x04)가 mapped read에 해당한다. 그러나 properly mapped reads, 즉 mapping된 mate의 거리와 간격이 라이브러리의 크기의 평균적 분포를 만족하는 것을 고르려면 -f 0x03(0x01 for read paired; 0x02 for read mapped in proper pair; paired read의 경우 두 flag는 동시에 쓰여야 함)을 적용해야 한다. 후속 분석 작업의 목적에 따라서는 mate 중 어느 하나만 mapping이 되었어도 read pair를 전부 추출하고 싶은 경우도 있을 것이다. SAM 및 BAM 필터링의 사례에 대해서는 [[https:// | ||
- | ^ **SAM flag** | + | ^ **SAM flag** |
- | | [1] -f 0x04 | Unmapped | | + | | [1] -f 0x04 | Unmapped |
- | | [2] -F 0x04 | Mapped | | + | | [2] -F 0x04 | Mapped |
- | | [3] -F 12 | Read and mate mapped | | + | | [3] -F 12 | Read and mate mapped |
- | | [4] -f 0x03 | Properly mapped (-f 99/147 및 -f 83/ | + | | [4] -f 0x03 | Properly mapped |
- | | [5] -f 0x04 -F 0x08 | Reads that did not map, but whose mates mapped (-f 4 -F 264로 표현한 자료도 있음) | | + | | [5] -f 0x04 -F 0x08 | Reads that did not map, but whose mates mapped |
- | | [6] -f 0x08 -F 0x04 | Reads that map, but whose mates not mapped (-f 8 -F 260으로 표현한 자료도 있음) | | + | | [6] -f 0x08 -F 0x04 | Reads that map, but whose mates not mapped |
여러 조건을 이용하여 복수의 BAM 파일을 추출하였다면 samtools merge 명령을 이용하여 하나로 합친 뒤 samtools bam2fq 명령을 이용하여 fastq 파일로 추출하면 된다. 위의 표에서 보인 사례에서 [5]와 [6]는 paired read까지 만들어 놓으면 같은 결과가 되므로 어떤 flag을 쓰든 관계가 없다. 다음의 사례는 BAM 파일을 탐색하여 mate 중 어느 한쪽만 mapping이 되었더라도 read pair를 추출하여 한 쌍의 fastq 파일로 출력하는 방법을 보이고 있다. | 여러 조건을 이용하여 복수의 BAM 파일을 추출하였다면 samtools merge 명령을 이용하여 하나로 합친 뒤 samtools bam2fq 명령을 이용하여 fastq 파일로 추출하면 된다. 위의 표에서 보인 사례에서 [5]와 [6]는 paired read까지 만들어 놓으면 같은 결과가 되므로 어떤 flag을 쓰든 관계가 없다. 다음의 사례는 BAM 파일을 탐색하여 mate 중 어느 한쪽만 mapping이 되었더라도 read pair를 추출하여 한 쌍의 fastq 파일로 출력하는 방법을 보이고 있다. | ||
Line 161: | Line 161: | ||
===== SRA data를 다운로드하는 방법(상세) ===== | ===== SRA data를 다운로드하는 방법(상세) ===== | ||
+ | 본 장의 시작 부분에서 fastq-dump를 이용한 SRA data 다운로드 방법을 간략하게 설명하였다. 만약 SRA와 연계된 메타데이터 파일이 필요하거나 웹브라우저 환경의 Run Selector를 이용해야 하는 경우, 또는 아마존 웹 서비스(Amazon Web Service, AWS)를 통한 다운로드가 필요하다면 NCBI의 공식 문서인 [[https:// | ||
+ | |||
+ | Single run에 대한 데이터를 열람하여 다운로드하려면 우선 [[https:// | ||
+ | |||
+ | 복수의 SRA Experiment(예: | ||
+ | |||
+ | $ PATH=/ | ||
+ | $ parallel -j 1 prefetch {} ::: $(cat SRR_Acc_List.txt) | ||
+ | $ parallel -j 1 fastq-dump --skip-technical -F --split-files -O fastq {} ::: $(cat SRR_Acc_List.txt) | ||
+ | |||
+ | SRA의 Run Browser에서 Data access 탭을 선택한 다음 URL을 클릭하여 직접 다운로드를 할 수도 있다. 아래 그림처럼 NCBI Location 오른쪽의 [[https:// | ||
+ | |||
+ | {{ : | ||
+ | |||
+ | 이를 ~/ | ||
+ | |||
+ | $ fastq-dump --split-files SRR8981517 | ||
+ | Read 1431064 spots for SRR8981517 | ||
+ | Written 1431064 spots for SRR8981517 | ||
+ | |||
+ | 사실은 앞서 설명했듯이 ‘fastq-dump %%--%%split-files SRR8981517’라고만 입력하여 실행을 해도 .sra 파일 다운로드와 fastq 추출 작업이 자동으로 연이어서 진행된다. | ||
+ | |||
===== 참고 자료 ===== | ===== 참고 자료 ===== |
bioinfo/참조_서열에_대한_매핑_reference_mapping_및_시각화.1687326818.txt.gz · Last modified: by hyjeong