bioinfo:pan-genome_analysis
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
bioinfo:pan-genome_analysis [2023/06/27 13:37] – [결과 파일] hyjeong | bioinfo:pan-genome_analysis [2023/06/28 13:07] (current) – [Scoary: pan-genome-wide association study] hyjeong | ||
---|---|---|---|
Line 5: | Line 5: | ||
===== Roary 활용법 ===== | ===== Roary 활용법 ===== | ||
- | 기존에 작성한 문서: [[bioinfo: | + | 기존에 작성한 문서: [[bioinfo: |
기본적인 pan-genome analysis는 [[https:// | 기본적인 pan-genome analysis는 [[https:// | ||
Line 182: | Line 182: | ||
oary를 이용하여 특정 균주의 유전체로부터 core와 accessory gene을 서로 구분해 냈다고 가정하자. 이어지는 질문은 accessory gene에 어떠한 생물학적 기능 혹은 경로가 더 많은지를 알아보는 것이다. 또는 분석에 이용한 모든 균주의 pan genome으로부터 특정 균주 그룹만이 공유하는 유전자 세트를 발굴하였다고 가정하자. 이러한 유전자 서브셋이 갖고 있는 enriched function or pathway에는 무엇이 있을까? Over-Representation Analysis(ORA)는 가장 오랫동안 쓰여온 pathway analysis 도구로서, | oary를 이용하여 특정 균주의 유전체로부터 core와 accessory gene을 서로 구분해 냈다고 가정하자. 이어지는 질문은 accessory gene에 어떠한 생물학적 기능 혹은 경로가 더 많은지를 알아보는 것이다. 또는 분석에 이용한 모든 균주의 pan genome으로부터 특정 균주 그룹만이 공유하는 유전자 세트를 발굴하였다고 가정하자. 이러한 유전자 서브셋이 갖고 있는 enriched function or pathway에는 무엇이 있을까? Over-Representation Analysis(ORA)는 가장 오랫동안 쓰여온 pathway analysis 도구로서, | ||
===== Panseq을 이용한 균주 특이적 염기서열 추출 ===== | ===== Panseq을 이용한 균주 특이적 염기서열 추출 ===== | ||
+ | <color # | ||
- | ===== 유전체의 | + | 비교유전체 |
+ | |||
+ | Panseq의 실행에 필요한 파라미터는 settings.txt(파일 이름은 중요하지 않음)에 미리 설정해 두어야 한다. Panseq는 query 파일을 일정 길이(fragmentationSize 파라미터로 변경 가능)로 잘라서 MUMmer 3 패키지의 nucmer를 사용하여 reference 염기서열과 | ||
+ | |||
+ | 유전체 서열 파일이 여러 contig로 구성된 경우에는 이것이 같은 균주에 속함을 명시적으로 나타내기 위하여 다음과 같이 서열 ID를 lcl|unique_identifier|sequence_id 포맷으로 바꾸어야 한다. 단일 | ||
+ | |||
+ | > | ||
+ | ATGCTTT… | ||
+ | > | ||
+ | ATGCTTT… | ||
+ | |||
+ | 그러나 실제 상황에서는 서열 ID 뒤에 description 정보가 있으면 제대로 결과가 나오지 않는 것을 발견하였다. 따라서 서열 ID 라인을 일괄적으로 정리하는 작업이 필요하다. 염기서열 파일이 field1_field2_field3.fna일 때 field1을 새로 만들어질 서열 ID의 unique_identifier로 사용함과 동시에 description을 삭제하여 최종적으로 field1.fasta 파일에 저장하려면 다음과 같이 실행한다. | ||
+ | |||
+ | $ ls *fna | while read f | ||
+ | > do | ||
+ | > DATA=$(cut -d ' | ||
+ | > awk -v -s=" | ||
+ | > done | ||
+ | $ rm *fna | ||
+ | |||
+ | Panseq를 실행하려면 텍스트 파일(settings.txt)에 파라미터 값들을 먼저 저장해 두어야 한다. 다음은 novel region finding 모드로 실행할 때 필요한 최소한도의 settings.txt 파일 사례이다. 이를 참조하되 / | ||
+ | |||
+ | # 모든 디렉토리는 '/' | ||
+ | queryDirectory < | ||
+ | referenceDirectory < | ||
+ | baseDirectory < | ||
+ | numberOfCores 8 | ||
+ | minimumNovelRegionSize 500 | ||
+ | novelRegionFinderMode no_duplicates # or unique | ||
+ | fragmentationSize 500 | ||
+ | percentIdentityCutoff 95 | ||
+ | runMode novel | ||
+ | overwrite 1 | ||
+ | |||
+ | Novel region finder는 “no_duplicates”와 “unique”의 두 가지 모드로 작동한다. no_duplicates 모드에서는 query로부터 reference에는 없는 | ||
+ | |||
+ | $ / | ||
+ | |||
+ | Core/ | ||
===== 기타 pan-genome 분석 도구 ===== | ===== 기타 pan-genome 분석 도구 ===== | ||
Line 215: | Line 254: | ||
Scoary의 입력물로는 gene_presence_absence.csv 파일과 더불어 trait table 파일(traits.csv)이 필요하다. Trait의 유무는 0과 1로 표현하되, | Scoary의 입력물로는 gene_presence_absence.csv 파일과 더불어 trait table 파일(traits.csv)이 필요하다. Trait의 유무는 0과 1로 표현하되, | ||
+ | |||
+ | ===== 읽어야 할 논문 ===== | ||
+ | [[https:// | ||
+ |
bioinfo/pan-genome_analysis.1687840642.txt.gz · Last modified: by hyjeong