transcriptome_analysis
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
transcriptome_analysis [2017/01/24 11:35] – [GFF/GTF/GFF3 file] hyjeong | transcriptome_analysis [2021/03/17 13:09] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 2: | Line 2: | ||
RNA-seq을 이용한 진핵 생물의 전사체(transcriptome) 분석에서는 TopHat-Cufflioks-Cuffmerge-Cuffdiff-(CummeRbund)로 이어지는 [[https:// | RNA-seq을 이용한 진핵 생물의 전사체(transcriptome) 분석에서는 TopHat-Cufflioks-Cuffmerge-Cuffdiff-(CummeRbund)로 이어지는 [[https:// | ||
- | 그러나 이 방법을 박테리아 대상의 RNA-seq data analysis에 그대로 적용하는 것은 무리가 있다. 특히 read alignment 과정이 박테리아에게는 딱 맞지 않는다. 왜냐하면 유전자 밀도가 낮은 진핵 생물과 달리 원핵 생물은 유전자 배열이 매우 촘촘하여 심지어는 서로 겹치기도 하고, splicing이 일어나지 않기 때문이다. 따라서 일반적인 (genome 유래) read mapping program을 그대로 사용하여 reference genome sequence에 붙이는 것이 더 나을 수 있다. 이러한 전체적인 과정은 2016년 발표된 한 논문(" | + | 그러나 이 방법을 박테리아 대상의 RNA-seq data analysis에 그대로 적용하는 것은 무리가 있다. 특히 read alignment 과정이 박테리아에게는 딱 맞지 않는다. 왜냐하면 유전자 밀도가 낮은 진핵 생물과 달리 원핵 생물은 유전자 배열이 매우 촘촘하여 심지어는 서로 겹치기도 하고, splicing이 일어나지 않기 때문이다. 따라서 일반적인 (genome 유래) read mapping program을 그대로 사용하여 reference genome sequence에 붙이는 것이 더 나을 수 있다. 뿐만 아니라 세균의 경우 워낙 그 종류가 많아서 일부 모델 세균을 제외하면 표준적인 reference(annotation 정보 포함)가 없는 경우가 대다수이다. 즉, 분석을 하려는 당사자가 reference 정보를 같이 |
+ | | ||
아주 쉽게 이야기하자면 RNA-seq read의 mapping을 통해서 샘플로부터 다음 그림과 같은 형태의 데이터를 얻어내는 것이 첫번째 단계라고 할 수 있다. 각 셀을 채우는 수치는 특정 샘플(조건 및 반복)의 유전자가 갖는 expression value이다. 이것은 read count일 수도 있고, RPKM/FPKM 및 이에 상응하는 값일 수도 있다. | 아주 쉽게 이야기하자면 RNA-seq read의 mapping을 통해서 샘플로부터 다음 그림과 같은 형태의 데이터를 얻어내는 것이 첫번째 단계라고 할 수 있다. 각 셀을 채우는 수치는 특정 샘플(조건 및 반복)의 유전자가 갖는 expression value이다. 이것은 read count일 수도 있고, RPKM/FPKM 및 이에 상응하는 값일 수도 있다. | ||
Line 17: | Line 18: | ||
어떤 경우든 mRNA feature가 없으면 CLC Genomics Workbench에서 mRNA track을 뽑아내지 못하게 되고, 결과적으로 RPKM 값은 계산이 되지 않는다(TPM, | 어떤 경우든 mRNA feature가 없으면 CLC Genomics Workbench에서 mRNA track을 뽑아내지 못하게 되고, 결과적으로 RPKM 값은 계산이 되지 않는다(TPM, | ||
+ | |||
+ | **추가 정보** CLC Genomics Workbench의 RNA-seq Analysis 옵션에 " | ||
+ | |||
+ | **추가 정보** GFF3 file을 CLC에서 작업하는 경우 transcript feature를 mRNA로 바꾸어야 나중에 제대로 track으로 표현된다. | ||
==== .ptt & .rnt files ==== | ==== .ptt & .rnt files ==== | ||
과거에는 NCBI의 RefSeq 자료에 ptt/rnt 파일이 존재하였으나 이제는 더 이상 제공되지 않는다. 박테리아의 RNA-seq 데이터 분석용 프로그램인 [[http:// | 과거에는 NCBI의 RefSeq 자료에 ptt/rnt 파일이 존재하였으나 이제는 더 이상 제공되지 않는다. 박테리아의 RNA-seq 데이터 분석용 프로그램인 [[http:// | ||
==== GFF/ | ==== GFF/ | ||
- | GFF file은 워낙 형식이 느슨하므로 RNA-seq data analysis용 프로그램이 이를 잘 받아들이는지를 사전에 점검해야 한다. 예를 들어 Prokka annotation tool이 만들어낸 GFF3 파일은 뒷부분에 FASTA sequence가 붙어있는데, | + | GFF file은 워낙 형식이 느슨하므로 RNA-seq data analysis용 프로그램이 이를 잘 받아들이는지를 사전에 점검해야 한다. 예를 들어 Prokka annotation tool이 만들어낸 GFF3 파일은 뒷부분에 FASTA sequence가 붙어있는데, |
- | === CLC Genomics Workbench에서 이 파일을 사용하려면 === | + | === CLC Genomics Workbench에서 이 파일을 사용하려면(non-Ensemble) |
- | - Annotate with GFF file 플러그인을 설치한다. | + | - **Annotate with GFF file** 플러그인을 설치한다. |
- Sequence fasta file을 standard import로 불러들인다. | - Sequence fasta file을 standard import로 불러들인다. | ||
- | - GFF 파일을 조작하여 gene/mRNA feature를 부가한다(예제 스크립트: | + | - GFF 파일을 조작하여 gene/mRNA feature를 부가한다($ [[modifyGFFforCLC_GW.pl]] |
+ | - Toolbox에서 Classical Sequence Analysis -> General Sequence Analysis -> Annotate with GFF/GTF/GVF file을 실행한다. 이때 2. Set parameters에서 "Name handling" | ||
+ | - Toolbox에서 Track Tools -> Convert to Tracks를 실행한다. | ||
+ | - 이후의 RNA-seq Analysis에서 필요한 annotation track을 고른다. ' | ||
Line 86: | Line 94: | ||
* SPARTA: Simple Program for Automated reference-based bacterial RNA-seq Transcriptome Analysis. [[https:// | * SPARTA: Simple Program for Automated reference-based bacterial RNA-seq Transcriptome Analysis. [[https:// | ||
* Tutorial: http:// | * Tutorial: http:// | ||
- | Read 전처리 및 QC, mapping, expression level 추정 및 dfferential expression analysis를 일괄적으로 실행하는 workflow 방식의 프로그램이다. 일루미나 기반의 sinlge-end read만을 사용할 수 있으므로, | + | Read 전처리(trimmomatic) |
==== 주의 사항 ==== | ==== 주의 사항 ==== | ||
입력 파일의 위치, 조건 수, 각 조건에 따른 샘플 설정 등을 명령행 인터페이스에서 대화식으로 입력하면 된다. 쉬운 설치와 사용을 표방하고 있지만 우분투가 아닌 CentOS에서는 그렇지만도 않다. install_dependencies.sh 스크립트(아래 참조)를 사용하여 필요한 프로그램들을 사전에 설치해 준다고는 하지만 apt-get을 쓰도록 되어있기 때문이다. | 입력 파일의 위치, 조건 수, 각 조건에 따른 샘플 설정 등을 명령행 인터페이스에서 대화식으로 입력하면 된다. 쉬운 설치와 사용을 표방하고 있지만 우분투가 아닌 CentOS에서는 그렇지만도 않다. install_dependencies.sh 스크립트(아래 참조)를 사용하여 필요한 프로그램들을 사전에 설치해 준다고는 하지만 apt-get을 쓰도록 되어있기 때문이다. | ||
Line 97: | Line 105: | ||
sudo R --vanilla --slave < install_edger.r | sudo R --vanilla --slave < install_edger.r | ||
- | 설치 위치는 반드시 ~/ | + | 설치 위치는 반드시 ~/ |
+ | $ python SPARTA.py --type=CDS --idattr=locus_tag | ||
===== CLC Genomics Workbench ===== | ===== CLC Genomics Workbench ===== | ||
+ | ' | ||
+ | |||
+ | {{ : | ||
+ | |||
+ | [[Working with metadata table (CLC)]] | ||
===== What's next? ===== | ===== What's next? ===== |
transcriptome_analysis.1485225307.txt.gz · Last modified: (external edit)