bioinfo:pan-genome_analysis
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
bioinfo:pan-genome_analysis [2023/06/27 13:25] – [기타 pan-genome 분석 도구] hyjeong | bioinfo:pan-genome_analysis [2023/06/28 13:07] (current) – [Scoary: pan-genome-wide association study] hyjeong | ||
---|---|---|---|
Line 5: | Line 5: | ||
===== Roary 활용법 ===== | ===== Roary 활용법 ===== | ||
- | 기존에 작성한 문서: [[bioinfo: | + | 기존에 작성한 문서: [[bioinfo: |
기본적인 pan-genome analysis는 [[https:// | 기본적인 pan-genome analysis는 [[https:// | ||
Line 56: | Line 56: | ||
Roary가 생성하는 파일은 [[https:// | Roary가 생성하는 파일은 [[https:// | ||
+ | |||
+ | {{ : | ||
accessory.header.embl | accessory.header.embl | ||
Line 81: | Line 83: | ||
dnaA: a1a82563115b75beda45b943a4982aba_3 | dnaA: a1a82563115b75beda45b943a4982aba_3 | ||
- | clustered_proteins 파일의 총 라인 수는 summary_statistics.txt 파일의 'Total genes' 숫자와 동일하다. 클러스터 식별자(ID)는 **genes_presence_absence.csv(or .Rtab)**의 ' | + | clustered_proteins 파일의 총 라인 수는 summary_statistics.txt 파일의 'Total genes' 숫자와 동일하다. 클러스터 식별자(ID)는 **genes_presence_absence.csv(or .Rtab)**의 ' |
Prank를 이용하여 느리지만 정확한 core gene의 codon-aware alignment를 하려면 -e 옵션을, mafft를 사용한 빠른 alignment를 하려면 -e %%--%%mafft 옵션을 사용한다. Core gene alignment를 생략하면 전체 계산 과정이 매우 빠르게 끝나지만 pan_genome_reference.fa 파일이 생성되지 않음에 유의하라. **pan_genome_reference.fa**는 pan genome(core 및 accessory) 클러스터 각각에 대한 대표 서열(nucleotide)을 수록하고 있다. clustered_proteins 파일에서 가장 앞에 위치한 유전자가 각 클러스터의 대표 서열에 해당한다. 염기서열의 ID는 수정된 것을 따르며, 바로 뒤의 description field에는 클러스터 번호정보가 나온다. | Prank를 이용하여 느리지만 정확한 core gene의 codon-aware alignment를 하려면 -e 옵션을, mafft를 사용한 빠른 alignment를 하려면 -e %%--%%mafft 옵션을 사용한다. Core gene alignment를 생략하면 전체 계산 과정이 매우 빠르게 끝나지만 pan_genome_reference.fa 파일이 생성되지 않음에 유의하라. **pan_genome_reference.fa**는 pan genome(core 및 accessory) 클러스터 각각에 대한 대표 서열(nucleotide)을 수록하고 있다. clustered_proteins 파일에서 가장 앞에 위치한 유전자가 각 클러스터의 대표 서열에 해당한다. 염기서열의 ID는 수정된 것을 따르며, 바로 뒤의 description field에는 클러스터 번호정보가 나온다. | ||
Line 180: | Line 182: | ||
oary를 이용하여 특정 균주의 유전체로부터 core와 accessory gene을 서로 구분해 냈다고 가정하자. 이어지는 질문은 accessory gene에 어떠한 생물학적 기능 혹은 경로가 더 많은지를 알아보는 것이다. 또는 분석에 이용한 모든 균주의 pan genome으로부터 특정 균주 그룹만이 공유하는 유전자 세트를 발굴하였다고 가정하자. 이러한 유전자 서브셋이 갖고 있는 enriched function or pathway에는 무엇이 있을까? Over-Representation Analysis(ORA)는 가장 오랫동안 쓰여온 pathway analysis 도구로서, | oary를 이용하여 특정 균주의 유전체로부터 core와 accessory gene을 서로 구분해 냈다고 가정하자. 이어지는 질문은 accessory gene에 어떠한 생물학적 기능 혹은 경로가 더 많은지를 알아보는 것이다. 또는 분석에 이용한 모든 균주의 pan genome으로부터 특정 균주 그룹만이 공유하는 유전자 세트를 발굴하였다고 가정하자. 이러한 유전자 서브셋이 갖고 있는 enriched function or pathway에는 무엇이 있을까? Over-Representation Analysis(ORA)는 가장 오랫동안 쓰여온 pathway analysis 도구로서, | ||
===== Panseq을 이용한 균주 특이적 염기서열 추출 ===== | ===== Panseq을 이용한 균주 특이적 염기서열 추출 ===== | ||
+ | <color # | ||
- | ===== 유전체의 | + | 비교유전체 |
+ | |||
+ | Panseq의 실행에 필요한 파라미터는 settings.txt(파일 이름은 중요하지 않음)에 미리 설정해 두어야 한다. Panseq는 query 파일을 일정 길이(fragmentationSize 파라미터로 변경 가능)로 잘라서 MUMmer 3 패키지의 nucmer를 사용하여 reference 염기서열과 | ||
+ | |||
+ | 유전체 서열 파일이 여러 contig로 구성된 경우에는 이것이 같은 균주에 속함을 명시적으로 나타내기 위하여 다음과 같이 서열 ID를 lcl|unique_identifier|sequence_id 포맷으로 바꾸어야 한다. 단일 | ||
+ | |||
+ | > | ||
+ | ATGCTTT… | ||
+ | > | ||
+ | ATGCTTT… | ||
+ | |||
+ | 그러나 실제 상황에서는 서열 ID 뒤에 description 정보가 있으면 제대로 결과가 나오지 않는 것을 발견하였다. 따라서 서열 ID 라인을 일괄적으로 정리하는 작업이 필요하다. 염기서열 파일이 field1_field2_field3.fna일 때 field1을 새로 만들어질 서열 ID의 unique_identifier로 사용함과 동시에 description을 삭제하여 최종적으로 field1.fasta 파일에 저장하려면 다음과 같이 실행한다. | ||
+ | |||
+ | $ ls *fna | while read f | ||
+ | > do | ||
+ | > DATA=$(cut -d ' | ||
+ | > awk -v -s=" | ||
+ | > done | ||
+ | $ rm *fna | ||
+ | |||
+ | Panseq를 실행하려면 텍스트 파일(settings.txt)에 파라미터 값들을 먼저 저장해 두어야 한다. 다음은 novel region finding 모드로 실행할 때 필요한 최소한도의 settings.txt 파일 사례이다. 이를 참조하되 / | ||
+ | |||
+ | # 모든 디렉토리는 '/' | ||
+ | queryDirectory < | ||
+ | referenceDirectory < | ||
+ | baseDirectory < | ||
+ | numberOfCores 8 | ||
+ | minimumNovelRegionSize 500 | ||
+ | novelRegionFinderMode no_duplicates # or unique | ||
+ | fragmentationSize 500 | ||
+ | percentIdentityCutoff 95 | ||
+ | runMode novel | ||
+ | overwrite 1 | ||
+ | |||
+ | Novel region finder는 “no_duplicates”와 “unique”의 두 가지 모드로 작동한다. no_duplicates 모드에서는 query로부터 reference에는 없는 | ||
+ | |||
+ | $ / | ||
+ | |||
+ | Core/ | ||
===== 기타 pan-genome 분석 도구 ===== | ===== 기타 pan-genome 분석 도구 ===== | ||
Line 205: | Line 246: | ||
link-to-server.py를 실행하면 data/ | link-to-server.py를 실행하면 data/ | ||
+ | |||
+ | 뒤에서 소개할 LS-BSR도 pan genome의 분석이 가능하다. | ||
===== Scoary: pan-genome-wide association study ===== | ===== Scoary: pan-genome-wide association study ===== | ||
Genome-wide association study(GWAS)는 주로 인간의 SNP와 형질의 연관성을 알아보기 위한 대규모 집단 유전학 및 유전체학의 응용 분야로 알려져 있다. 박테리아의 GWAS, 즉 주로 임상적으로 중요한 형질(병원성이나 항생제 내성 등)과 SNP의 연관성을 탐구하는 연구는 매우 최근에 들어서 시작되었다. | Genome-wide association study(GWAS)는 주로 인간의 SNP와 형질의 연관성을 알아보기 위한 대규모 집단 유전학 및 유전체학의 응용 분야로 알려져 있다. 박테리아의 GWAS, 즉 주로 임상적으로 중요한 형질(병원성이나 항생제 내성 등)과 SNP의 연관성을 탐구하는 연구는 매우 최근에 들어서 시작되었다. | ||
Line 211: | Line 254: | ||
Scoary의 입력물로는 gene_presence_absence.csv 파일과 더불어 trait table 파일(traits.csv)이 필요하다. Trait의 유무는 0과 1로 표현하되, | Scoary의 입력물로는 gene_presence_absence.csv 파일과 더불어 trait table 파일(traits.csv)이 필요하다. Trait의 유무는 0과 1로 표현하되, | ||
+ | |||
+ | ===== 읽어야 할 논문 ===== | ||
+ | [[https:// | ||
+ |
bioinfo/pan-genome_analysis.1687839941.txt.gz · Last modified: by hyjeong