bioinfo:pan-genome_analysis
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
bioinfo:pan-genome_analysis [2023/06/27 13:44] – [Panseq을 이용한 균주 특이적 염기서열 추출] hyjeong | bioinfo:pan-genome_analysis [2023/06/28 13:07] (current) – [Scoary: pan-genome-wide association study] hyjeong | ||
---|---|---|---|
Line 182: | Line 182: | ||
oary를 이용하여 특정 균주의 유전체로부터 core와 accessory gene을 서로 구분해 냈다고 가정하자. 이어지는 질문은 accessory gene에 어떠한 생물학적 기능 혹은 경로가 더 많은지를 알아보는 것이다. 또는 분석에 이용한 모든 균주의 pan genome으로부터 특정 균주 그룹만이 공유하는 유전자 세트를 발굴하였다고 가정하자. 이러한 유전자 서브셋이 갖고 있는 enriched function or pathway에는 무엇이 있을까? Over-Representation Analysis(ORA)는 가장 오랫동안 쓰여온 pathway analysis 도구로서, | oary를 이용하여 특정 균주의 유전체로부터 core와 accessory gene을 서로 구분해 냈다고 가정하자. 이어지는 질문은 accessory gene에 어떠한 생물학적 기능 혹은 경로가 더 많은지를 알아보는 것이다. 또는 분석에 이용한 모든 균주의 pan genome으로부터 특정 균주 그룹만이 공유하는 유전자 세트를 발굴하였다고 가정하자. 이러한 유전자 서브셋이 갖고 있는 enriched function or pathway에는 무엇이 있을까? Over-Representation Analysis(ORA)는 가장 오랫동안 쓰여온 pathway analysis 도구로서, | ||
===== Panseq을 이용한 균주 특이적 염기서열 추출 ===== | ===== Panseq을 이용한 균주 특이적 염기서열 추출 ===== | ||
+ | <color # | ||
+ | |||
비교유전체 분석을 통해서 특정 균주의 유전체에만 존재하는 염기서열을 추출할 필요가 종종 있다. 앞서 소개한 roary나 orthoMCL에서는 유전자 단위에서 모든 유전체에 공통으로 존재하는 core gene과 나머지에 해당하는 accessory gene을 추출해 주므로 후자를 활용하면 각 균주에만 존재하는 strain-specific gene을 찾을 수 있다. 그러나 이러한 특이적 영역을 반드시 유전자 단위로만 추출할 필요는 없다. 유전체 단위로 특이적인 영역을 찾아낸다면 qPCR 프라이머 등을 설계할 때 더욱 유용하게 활용할 수 있다. [[https:// | 비교유전체 분석을 통해서 특정 균주의 유전체에만 존재하는 염기서열을 추출할 필요가 종종 있다. 앞서 소개한 roary나 orthoMCL에서는 유전자 단위에서 모든 유전체에 공통으로 존재하는 core gene과 나머지에 해당하는 accessory gene을 추출해 주므로 후자를 활용하면 각 균주에만 존재하는 strain-specific gene을 찾을 수 있다. 그러나 이러한 특이적 영역을 반드시 유전자 단위로만 추출할 필요는 없다. 유전체 단위로 특이적인 영역을 찾아낸다면 qPCR 프라이머 등을 설계할 때 더욱 유용하게 활용할 수 있다. [[https:// | ||
- | ===== 유전체의 1:1 비교를 통해서 특이적 서열을 영역 | + | |
+ | Panseq의 실행에 필요한 파라미터는 settings.txt(파일 이름은 중요하지 않음)에 미리 설정해 두어야 한다. Panseq는 query 파일을 일정 길이(fragmentationSize 파라미터로 변경 가능)로 잘라서 MUMmer 3 패키지의 nucmer를 사용하여 reference 염기서열과 비교한다. | ||
+ | |||
+ | 유전체 | ||
+ | |||
+ | > | ||
+ | ATGCTTT… | ||
+ | > | ||
+ | ATGCTTT… | ||
+ | |||
+ | 그러나 실제 상황에서는 서열 ID 뒤에 description 정보가 있으면 제대로 결과가 나오지 않는 것을 발견하였다. 따라서 서열 ID 라인을 일괄적으로 정리하는 작업이 필요하다. 염기서열 파일이 field1_field2_field3.fna일 때 field1을 새로 만들어질 서열 ID의 unique_identifier로 사용함과 동시에 description을 삭제하여 최종적으로 field1.fasta 파일에 저장하려면 다음과 같이 실행한다. | ||
+ | |||
+ | $ ls *fna | while read f | ||
+ | > do | ||
+ | > DATA=$(cut -d ' | ||
+ | > awk -v -s=" | ||
+ | > done | ||
+ | $ rm *fna | ||
+ | |||
+ | Panseq를 실행하려면 텍스트 파일(settings.txt)에 파라미터 값들을 먼저 저장해 두어야 한다. 다음은 novel region finding 모드로 실행할 때 필요한 최소한도의 settings.txt 파일 사례이다. 이를 참조하되 / | ||
+ | |||
+ | # 모든 디렉토리는 '/' | ||
+ | queryDirectory < | ||
+ | referenceDirectory < | ||
+ | baseDirectory < | ||
+ | numberOfCores 8 | ||
+ | minimumNovelRegionSize 500 | ||
+ | novelRegionFinderMode no_duplicates # or unique | ||
+ | fragmentationSize 500 | ||
+ | percentIdentityCutoff 95 | ||
+ | runMode novel | ||
+ | overwrite 1 | ||
+ | |||
+ | Novel region finder는 “no_duplicates”와 “unique”의 두 가지 모드로 작동한다. no_duplicates 모드에서는 query로부터 reference에는 없는 | ||
+ | |||
+ | $ / | ||
+ | |||
+ | Core/ | ||
===== 기타 pan-genome 분석 도구 ===== | ===== 기타 pan-genome 분석 도구 ===== | ||
Line 215: | Line 254: | ||
Scoary의 입력물로는 gene_presence_absence.csv 파일과 더불어 trait table 파일(traits.csv)이 필요하다. Trait의 유무는 0과 1로 표현하되, | Scoary의 입력물로는 gene_presence_absence.csv 파일과 더불어 trait table 파일(traits.csv)이 필요하다. Trait의 유무는 0과 1로 표현하되, | ||
+ | |||
+ | ===== 읽어야 할 논문 ===== | ||
+ | [[https:// | ||
+ |
bioinfo/pan-genome_analysis.1687841061.txt.gz · Last modified: by hyjeong