sars-cov-2_검출을_위한_pcr_프라이머_설계
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
sars-cov-2_검출을_위한_pcr_프라이머_설계 [2021/12/02 08:43] – [들어가는 글] hyjeong | sars-cov-2_검출을_위한_pcr_프라이머_설계 [2023/06/28 15:07] (current) – [들어가는 글] hyjeong | ||
---|---|---|---|
Line 1: | Line 1: | ||
====== SARS-CoV-2 검출을 위한 PCR 프라이머 설계 ====== | ====== SARS-CoV-2 검출을 위한 PCR 프라이머 설계 ====== | ||
+ | * Unordered List Item< | ||
+ | * 제 블로그에 별도의 글인 [[https:// | ||
+ | * Genes & Genomics에 제 논문이 게재되었습니다. [[https:// | ||
===== 들어가는 글 ===== | ===== 들어가는 글 ===== | ||
COVID-19 진단을 위해 쓰이는 PCR 기법은 빠르게 발생하는 변이체에 의해 민감도가 떨어질 우려가 크다. 새롭게 보고된 바이러스 변이체의 게놈 정보를 이용하여 돌연변이가 발생한 위치를 피하여 PCR 프라이머를 설계하는 방법이 다음과 같이 소개되어서 이를 재현해 보는 것이 이 문서의 작성 취지이다. | COVID-19 진단을 위해 쓰이는 PCR 기법은 빠르게 발생하는 변이체에 의해 민감도가 떨어질 우려가 크다. 새롭게 보고된 바이러스 변이체의 게놈 정보를 이용하여 돌연변이가 발생한 위치를 피하여 PCR 프라이머를 설계하는 방법이 다음과 같이 소개되어서 이를 재현해 보는 것이 이 문서의 작성 취지이다. | ||
Line 5: | Line 8: | ||
이 논문 말고도 엄청난 수의 SARS-CoV-2 검출용 PCR 기법이 넘쳐나고 있을 것이다. 이 논문을 택한 것은 이해하기 쉬운 기본 원리에 바탕을 두고 있고, 리눅스 컴퓨터에서 실행할 수 있는 튜토리얼 형태로 작성되어 있어서 따라하기에 좋기 때문이다. | 이 논문 말고도 엄청난 수의 SARS-CoV-2 검출용 PCR 기법이 넘쳐나고 있을 것이다. 이 논문을 택한 것은 이해하기 쉬운 기본 원리에 바탕을 두고 있고, 리눅스 컴퓨터에서 실행할 수 있는 튜토리얼 형태로 작성되어 있어서 따라하기에 좋기 때문이다. | ||
- | 여러 DNA target을 공통적으로 증폭할 수 있는 프라이머를 설계하기 위하여 conserved region을 찾는 가장 보편적인 방법은 multiple sequence alignment(MSA)를 사용하는 것이다. 예를 들어서 EasyPrimer([[https:// | + | 여러 DNA target을 공통적으로 증폭할 수 있는 프라이머를 설계하기 위하여 conserved region을 찾는 가장 보편적인 방법은 multiple sequence alignment(MSA)를 사용하는 것이다. 예를 들어서 EasyPrimer([[https:// |
+ | |||
+ | 그러나 이 글에서 소개하는 Methods Mol Biol.의 방법은 시간이 많이 걸리는 MSA에 의존하지 않고 각 변이체 바이러스 게놈을 레퍼런스에 비교하여 변이의 위치를 VCF로 추출한 뒤 이를 병합한 다음, BED 파일로 전환하여 프라이머 설계용 reference 서열 위에 대/ | ||
===== 분석 과정 요약 ===== | ===== 분석 과정 요약 ===== | ||
- [[https:// | - [[https:// | ||
Line 12: | Line 17: | ||
===== 실제 방법 ===== | ===== 실제 방법 ===== | ||
- | 논문에서 소개한 명령어를 그대로 복사하여 실행하면 오류가 발생하기도 한다. 이를 바로잡아 나가도록 하자. 나는 sars_cov_2라는 conda environment(python 3.10.0)를 마련하였는데, | + | 논문에서 소개한 명령어를 그대로 복사하여 실행하면 오류가 발생하기도 한다. 이를 바로잡아 나가도록 하자. 나는 |
==== 1. Identify the mutations compared to the reference gnome ==== | ==== 1. Identify the mutations compared to the reference gnome ==== | ||
SARS-CoV-2 유전체 염기서열(FASTA file)을 다운로드하여 ${MICROGMT}/ | SARS-CoV-2 유전체 염기서열(FASTA file)을 다운로드하여 ${MICROGMT}/ | ||
Line 25: | Line 30: | ||
다음과 같은 에러 메시지는 해당 게놈에 변이가 없음을 의미하므로 무시하면 된다. | 다음과 같은 에러 메시지는 해당 게놈에 변이가 없음을 의미하므로 무시하면 된다. | ||
10: | 10: | ||
- | VCF 파일(1-based)을 BED 포맷(0-based)으로 전환한다. 본문에서 소개한 명령어의 첫 줄(" | + | 다음 단계에서는 |
$ awk '{\ | $ awk '{\ | ||
| | ||
Line 32: | Line 37: | ||
print $1" | print $1" | ||
| | ||
- | 과연 이 awk 명령어가 제대로 작동하고 있는 것인가? 다음은 204번째 위치에서 G가 T로 치환된 것을 표시한 것이다. 샘플로 사용한 100개 게놈 서열에서는 모두 158회 출현한다. 0-based BED에서는 2,3번째 컬럼에서 각각 203(chromStart), | + | 과연 이 awk 명령어가 제대로 작동하고 있는 것인가? 다음은 204번째 위치에서 G가 T로 치환된 것을 표시한 것이다. 샘플로 사용한 100개 게놈 서열에서는 모두 158회 출현한다. 0-based BED에서는 2,3번째 컬럼에서 각각 203(chromStart), |
[VCF 파일] NC_045512 204 . G T | [VCF 파일] NC_045512 204 . G T | ||
[BED 파일] NC_045512 203 204 | [BED 파일] NC_045512 203 204 | ||
Line 53: | Line 58: | ||
> data/ | > data/ | ||
- | primer3_core 실행에 사용할 input.txt 파일의 샘플은 / | + | primer3_core 실행에 사용할 input.txt 파일의 샘플은 / |
| | ||
PRIMER_TASK=generic | PRIMER_TASK=generic | ||
Line 70: | Line 75: | ||
*SEQUENCE_TEMPLATE=ATTAAAGGTTTATAC... | *SEQUENCE_TEMPLATE=ATTAAAGGTTTATAC... | ||
= | = | ||
- | primer3는 다음과 같이 실행한다. | + | primer3는 다음과 같이 실행한다. 결과 파일(output.txt)에는 이해하기 매우 쉬운 구조로서 한 줄에 하나씩의 정보가 ' |
$ primer3_core < input.txt > output.txt | $ primer3_core < input.txt > output.txt | ||
$ cat output.txt | $ cat output.txt | ||
+ | ... | ||
+ | PRIMER_PAIR_NUM_RETURNED=100 | ||
... | ... | ||
PRIMER_LEFT_0_SEQUENCE=TGATGGTGGTGTCACTCGTG | PRIMER_LEFT_0_SEQUENCE=TGATGGTGGTGTCACTCGTG | ||
PRIMER_RIGHT_0_SEQUENCE=GGCACGACAAAACCCACTTC | PRIMER_RIGHT_0_SEQUENCE=GGCACGACAAAACCCACTTC | ||
+ | PRIMER_LEFT_0=8700, | ||
+ | PRIMER_RIGHT_0=8864, | ||
... | ... | ||
- | | + | |
- | PRIMER_RIGHT_1_SEQUENCE=TGTcGTCTCAGGCAATGCAT | + | |
... | ... | ||
- | output.txt 파일을 열어서 소문자가 없는 프라이머쌍을 선택하여 FASTA 파일로 저장한다. 다음과 같이 처리하면 된다. | + | output.txt 파일을 열어서 소문자가 없는 프라이머쌍을 선택하여 FASTA 파일로 저장한다. |
$ grep ' | $ grep ' | ||
awk -F= '{\ | awk -F= '{\ | ||
Line 87: | Line 95: | ||
| | ||
| | ||
+ | $ head -n 4 p.fa | ||
+ | > | ||
+ | TGATGGTGGTGTCACTCGTG | ||
+ | > | ||
+ | GGCACGACAAAACCCACTTC | ||
==== 3. Evaluate primers ==== | ==== 3. Evaluate primers ==== | ||
마지막 단계에서는 선별한 프라이머가 인간 유전체 등 nontarget sequence에 대하여 증폭산물을 생성하는지 점검하여 특이성이 우수한 것을 최종적으로 고르도록 한다. 이 과정에서는 mfeprimer 명령어가 쓰일 것이다. SARS-CoV-2, 인체 및 인플루엔자 유전체 데이터에 대한 인덱스를 먼저 생성해 놓는다. | 마지막 단계에서는 선별한 프라이머가 인간 유전체 등 nontarget sequence에 대하여 증폭산물을 생성하는지 점검하여 특이성이 우수한 것을 최종적으로 고르도록 한다. 이 과정에서는 mfeprimer 명령어가 쓰일 것이다. SARS-CoV-2, 인체 및 인플루엔자 유전체 데이터에 대한 인덱스를 먼저 생성해 놓는다. | ||
Line 103: | Line 116: | ||
사람과 인플루엔자 DNA에 대해서도 마찬가지 방법으로 점검을 한다. | 사람과 인플루엔자 DNA에 대해서도 마찬가지 방법으로 점검을 한다. | ||
$ mfeprimer -d data/ | $ mfeprimer -d data/ | ||
- | ===== 관련 웹사이트 ===== | + | ===== COVID-19 정보 |
* [[https:// | * [[https:// | ||
* [[https:// | * [[https:// | ||
* [[https:// | * [[https:// | ||
* [[https:// | * [[https:// |
sars-cov-2_검출을_위한_pcr_프라이머_설계.1638402224.txt.gz · Last modified: by hyjeong