User Tools

Site Tools


2022_microbial_genome_analysis_course_plan

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
2022_microbial_genome_analysis_course_plan [2022/03/15 22:23] – [Long read assembly] hyjeong2022_microbial_genome_analysis_course_plan [2022/03/24 10:18] (current) – [기타 자료] hyjeong
Line 31: Line 31:
  
 기타 프로그램: [[https://notepad-plus-plus.org/downloads/|Notepad++]] 기타 프로그램: [[https://notepad-plus-plus.org/downloads/|Notepad++]]
-==== 프로그램 설치 과정 ==== 
-필요한 프로그램을 설치한 상태로 WSL용 배포본(.tar 파일)으로 제공한다. 다음은 배포본을 만드는 과정을 설명한 것이다. 
-=== 1. conda packages === 
-[[https://docs.conda.io/en/latest/miniconda.html|Miniconda  다운로드 사이트]]에서 [[https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh|Linux 64 비트용 최신 설치파일]]을 내려받아 설치한다. 
-== Base environment == 
-  * emboss 
-  * ncbi-genome-download 
-  * pyani (mummer, legacy blast 포함) 
-  * fastani 
-  * sra-tools 앞으로는 [[https://github.com/ncbi/sra-tools/wiki/HowTo:-fasterq-dumphttps://github.com/ncbi/sra-tools/wiki/HowTo:-fasterq-dump|fasterq-dump]] 사용을 권장함 
-  * filtlong 
  
-== zga environment == +==== 배포한 'myUbuntu'의 재작 ==== 
-[[https://github.com/laxeye/zga|zga]] - - prokaryotic genome assembly and annotation pipeline +별도의 위키문서 [[building_myubuntu_distro|myUbuntu distro 제작 및 재설치 과정]]에 기록하였음.
-  (base) conda create -n zga "python=3.6" fastp "spades>=3.12" unicycler checkm-genome dfast bbmap blast biopython nxtrim "mash>=2" flye minimap2 racon "samtools>=1.9" +
-  (base) conda activate zga +
-  (zga) dfast_file_downloader.py --protein dfast --cdd Cog --hmm TIGR +
-  (zga) pip install zga +
-java를 포함하고 있음. 그런데 어느 단계에서 설치되었는지를 모르겠다. conda 환경은 아니다. wsl서 우분투 설치 직후의 상황을 확인해 볼 것. +
-  java -version +
-  openjdk version "1.8.0_312" +
-  OpenJDK Runtime Environment (Zulu 8.58.0.13-CA-linux64) (build 1.8.0_312-b07) +
-  OpenJDK 64-Bit Server VM (Zulu 8.58.0.13-CA-linux64) (build 25.312-b07, mixed mode) +
-=== 2. 기타 === +
-== apt로 설치한 것 == +
-  * perl-bioperl +
-== 기타 == +
-  (base) pip install merge-gbk-records+
  
-https://github.com/chjp/ANI/blob/master/ANI.pl 
- 
- 
-==== 배포판 만들기 ==== 
-[[https://docs.microsoft.com/ko-kr/windows/wsl/build-custom-distro|WSL용 사용자 지정 Linux 배포판 만들기]] 
- 
-Windows Terminal을 열고 다음을 실행한다. 
- 
-  PS C:\Users\jeong> wsl --shutdown 
-  PS C:\Users\jeong> wsl --list 
-  Linux용 Windows 하위 시스템 배포: 
-  Ubuntu-20.04(기본값) 
-  PS C:\Users\jeong> wsl --export Ubuntu-20.04 $env:USERPROFILE\Desktop\my_distro.tar 
-  # 명령 프롬프트에서는 '%USERPROFILE%\Desktop\my_distro.tar'라고 입력해야 한다. 
- 
-==== 배포판 설치하기 ==== 
-[[https://docs.microsoft.com/ko-kr/windows/wsl/use-custom-distro#import-the-tar-file-into-wsl|tar 파일을  wsl로 가져오기]] 
- 
-my_distro.tar 파일을 바탕화면에 두었다고 가정하자. Windows Terminal을 열고 다음을 실행한다. 
-  PS C:\Users\jeong> mkdir C:\wslDistroStorage\myUbuntu 
-  PS C:\Users\jeong> wsl --import myUbuntu C:\wslDistroStorage\myUbuntu $env:USERPROFILE\Desktop\my_distro.tar 
-  # 20분 정도 소요됨 
-  PS C:\Users\jeong> wsl --list 
-  PS C:\Users\jeong> Linux용 Windows 하위 시스템 배포: 
-  Ubuntu-20.04(기본값) 
-  myUbuntu 
-  # 지울 때에는 설치와 달리 순식간에 없어지니 조심하라! 
-  PS C:\Users\jeong> wsl --unregister myUbuntu 
-  등록 취소 중... 
-  PS C:\Users\jeong> wsl -l 
-  Linux용 Windows 하위 시스템 배포: 
-  Ubuntu-20.04(기본값) 
-  # 기본값이 아닌 배포를 선택하여 실행하기 
-  PS C:\Users\jeong> wsl -d myUbuntu 
-   
 ===== 실습 내용 ===== ===== 실습 내용 =====
 ==== Fastq 파일 입수(~50x) ==== ==== Fastq 파일 입수(~50x) ====
Line 178: Line 118:
 zga에서는 '-a {spades,unicycler,flye}' 옵션으로 assembler를 선택한다. default assembler는 unicycler이다. short read를 동반하지 않으면 spades는 사용할 수 없다. flye를 택한 경우 'ERROR: Looks like the system ran out of memory' 메시지와 함께 중단될 것이다. zga에서는 '-a {spades,unicycler,flye}' 옵션으로 assembler를 선택한다. default assembler는 unicycler이다. short read를 동반하지 않으면 spades는 사용할 수 없다. flye를 택한 경우 'ERROR: Looks like the system ran out of memory' 메시지와 함께 중단될 것이다.
   curl -L -o pacbio.fastq http://gembox.cbcb.umd.edu/mhap/raw/ecoli_p6_25x.filtered.fastq   curl -L -o pacbio.fastq http://gembox.cbcb.umd.edu/mhap/raw/ecoli_p6_25x.filtered.fastq
 +  # 자료 점검하기
 +  echo '9bb4c10c41c5442d630af8b504042334  pacbio.fastq' > md5sum.txt
 +  md5sum -c md5sum.txt # 'pacbio.fastq: 성공'이 출력될 것이다.
   flye --pacbio-raw pacbio.fastq --out-dir flye_assembly # Oops, out of memory!   flye --pacbio-raw pacbio.fastq --out-dir flye_assembly # Oops, out of memory!
   unicycler -l pacbio.fastq -o unicycler_assembly # Successful!   unicycler -l pacbio.fastq -o unicycler_assembly # Successful!
   (zga) zga --pacbio pacbio.fastq --threads 2 -o my_assembly_lr # unicycler가 쓰임   (zga) zga --pacbio pacbio.fastq --threads 2 -o my_assembly_lr # unicycler가 쓰임
 canu는 현재 설치되어 있지 않다. unicycler를 실행하면 dnaA 또는 repA gene에 의한 circularization까지 완료된다. canu보다는 훨씬 편리하다. 조립된 contig의 circularity를 간편하게 확인하려면 sprai assembler에 포함된 check_circularity.pl 스크립트의 shebang line을 수정한 뒤 활용하라. sprai는 [[https://anaconda.org/bioconda/sprai/files|anaconda package]]를 풀어서 활용할 것. 자, 그런데 설치된 long read assembler는 전부 자동적으로 circularize를 하므로 check_circularity.pl을 실행할 기회가 없다. canu는 현재 설치되어 있지 않다. unicycler를 실행하면 dnaA 또는 repA gene에 의한 circularization까지 완료된다. canu보다는 훨씬 편리하다. 조립된 contig의 circularity를 간편하게 확인하려면 sprai assembler에 포함된 check_circularity.pl 스크립트의 shebang line을 수정한 뒤 활용하라. sprai는 [[https://anaconda.org/bioconda/sprai/files|anaconda package]]를 풀어서 활용할 것. 자, 그런데 설치된 long read assembler는 전부 자동적으로 circularize를 하므로 check_circularity.pl을 실행할 기회가 없다.
 +
 +https://blog.genoglobe.com/2022/03/contig-circularity-checkcircularitypl.html
  
 ==== Post-assembly analysis ==== ==== Post-assembly analysis ====
Line 223: Line 168:
   * Center for Genomic Epidemiology http://www.genomicepidemiology.org/services/   * Center for Genomic Epidemiology http://www.genomicepidemiology.org/services/
  
 +===== 기타 자료 =====
 +본 강좌에서는 리눅스 사용법을 직접 다루지는 않는다. 인터넷에는 리눅스(또는 유닉스)의 학습을 위한 자료가 정말 무궁무진하고 그 수준도 천차만별이다.
  
 +https://swcarpentry.github.io/shell-novice/
2022_microbial_genome_analysis_course_plan.1647350612.txt.gz · Last modified: 2022/03/15 22:23 by hyjeong