mg-GlobOS

mg-GlobOS

소개의 글

mg-GlobOS는 2019년 11월 11일 개최된 포스트게놈다부처유전체사업 재직자 재교육 단기과정('미생물 유전체의 해독과 분석')에서 사용한 실습 환경을 사용자 여러분의 컴퓨터에서 재현할 수 있도록 만든 가상 시스템입니다. mg는 microbial genome, GlobOS는 (Geno)Globe + OS(Operating System)를 의미합니다. GenoGlobe.kr 및 GenoGlobe.com은 제가 사용하는 도메인입니다. mg-GlobOS는 CentOS 7.7.1908을 기반으로 하여 제작된 가상 머신 파일(Open Virtualization Format 1.0; .ova file)으로서 Oracle VirtualBox에서 사용 가능합니다. 전송할 파일의 용량을 줄이기 위하여 실습용 데이터는 별도로 제공됩니다.

현재의 버전은 0.11 (1911)입니다. — Haeyoung Jeong 2019/11/15 14:58

설치 요령

(주)인실리코젠에서 제공하는 ftp site는 한시적으로만 운영됩니다. 여기에서 소개하는 다운로드 링크는 계속 유지될 것이지만 속도는 보장하기 어렵습니다.

다음의 파일을 다운로드한 뒤 Oracle VirtualBox에서 '파일→가상 시스템 가져오기'를 사용하여 설치하십시오.

mg-GlobOS 0.11 (1911).ova (10 GB; MD5 checksum: eb5f7faefd684fb0c368adeb6658cf8a) Link 1
설치 후 저장 공간을 늘려야 하므로 디스크에 100 GB 정도의 여유가 필요합니다. 다운로드하는 파일 자체와 압축 해제를 위한 공간은 별도입니다.

첫 부팅을 하기 전에 '설정→시스템'에서 기본 메모리와 프로세서 개수를 각자의 환경에 맞게 수정하십시오. 기본 설정은 메모리 4096 MB, CPU는 2 개입니다. 최소한 8 GB의 메모리와 2 개의 CPU가 가상머신에 할당되어야 canu assembler를 실행할 수 있습니다. '설정→공유폴더는 다음과 같이 설정됩니다. 변경이 필요하면 원하는 폴더 경로를 사용하십시오. 폴더 이름은 vbox로 하는 것이 좋습니다. 이제 mg-GlobOS를 시작합니다. 기본 사용자명은 'user'이며 암호를 입력하지 않아도 로그인이 됩니다. user 계정에는 sudo 권한이 부여되어 있고 관리자 암호가 필요한 상황에는 korea#1113을 입력합니다. 부팅을 하면 공유 폴더(C:\vbox)는 가상머신 안에서 /media/sf_vbox로 보일 것입니다.

실습용 자료는 (1) 입력용 파일만 포함된 day1_exercise_small.zip(1.79G)과 (2) 모든 결과물까지 포함하는 day1_exercise_full.zip(26.7G) 중에서 원하시는 것을 선택하여 다운로드하시기 바랍니다. 단, 06_3GS에서 사용한 대장균 유전체의 ~150x PacBio sequencing raw data(원본 파일는 .tar.gz 압축 파일의 용량만 해도 7.1 GB나 되어서 도저히 (1)에 담을 수가 없었습니다. 대신 필터링을 마친 pacbio_150x.fasta는 수록되어 있습니다. (1)를 사용하는 경우 이 데이터를 꼭 쓰시려면 위에 소개한 URL에서 직접 다운로드하시기 바랍니다.

day1_exercise_small.zip link 1
day1_exercise_full.zip - 용량이 너무 커서 제공하기 곤란합니다. 인실리코젠의 ftp 서버를 이용하십시오.

자료 파일은 가상머신의 공유폴더(C:\vbox)에서 압축을 해제하십시오.

실습 환경에 진입하려면

다음을 입력하십시오. 대부분의 실습은 base environment에서 이루어집니다.

$ conda activate
$ source ~/SET_PATH.sh

가상머신 저장용량 늘리기(대단히 중요!!)

mg-GlobOS를 설치한 직후의 가상머신 내의 HDD 여유 용량은 2 GB를 겨우 넘을 것입니다. 여기에서는 파일을 복사하여 작업을 하기가 매우 곤란합니다. 공유 폴더 안에서 분석 작업을 하면 가상 머신의 HDD를 사용하지 않으므로 마치 제한이 없을 것 같지만, 실제로 몇 번 테스트를 해 보니 자꾸 에러가 발생하는 것이었습니다. 똑같은 입력 파일임에도 불구하고 홈 디렉토리 안에서는 에러가 발생하지 않았습니다. 따라서 가상머신의 저장공간을 늘린 뒤에 실습 자료를 이리로 복사하여 작업하는 것이 가장 안전합니다. 혹은 꼭 필요한 파일만 홈 디렉토리에 복사한 뒤에 명령어를 실행하는 것도 한 방법입니다.

처음부터 저장공간의 용량을 넉넉하게 잡아서 가상머신을 만들어 .ova 파일로 배포하면 사용자 여러분에게는 가장 편리하겠지만 그만큼 전송을 받을 파일이 커집니다. 그래서 .ova 파일은 10 GB 내외로 맞추어서 제작하여 배포하고, 설치한 뒤에 용량을 늘리는 방법을 택한 것입니다.

CentOS 기반의 가상머신에서 저장소 용량 늘리는 방법은 잉구블로그의 글을 그대로 따라서 하시면 됩니다. 가상 시스템을 종료한 상태에서 윈도우 호스트 측에서 VBoxManage modifyhd <VDI 파일명> --resize <MB 단위의 원하는 크기>명령을 주어서 .vdi 파일을 원하는 용량으로 키우고, CentOS 안에서 파티션을 변경시켜야 합니다.

--resize 81920 정도(80 GB)면 됩니다. 관리자 권한이 필요한 명령어를 실행할 때에는 'sudo fdisk -l'과 같은 방식으로 합니다. gparted를 사용하면 좀 더 편리하게 작업이 가능하지만 그러려면 CentOS 설치용 ISO 파일이 필요합니다.

모든 설치 과정이 끝났다면 실습용 스크립트를 참조하여 미생물 유전체 시퀀싱 결과물의 다양한 분석 작업을 즐기시기 바랍니다!

기타 중요한 링크

실습용 서버에 프로그램 설치하기
TORMES - an automated pipeline for while bacterial genome analysis directly from raw Illumina paired-end sequencing data. PMID 30957837 제 블로그에 소개했던 글
DocMind Analytics
Bacterial analysis pipeline, Center for Genomic Epidemiology

—- 교육 프로그램 준비와 진행에 수고하신 (주)인실리코젠과 국가생명연구자원정보센터(KOBIC) 관계자분들께 감사의 말씀을 전합니다.

Table of Contents