custom_kraken_db_test
Differences
This shows you the differences between two versions of the page.
| Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
| custom_kraken_db_test [2016/12/13 08:54] – [설치 방법] hyjeong | custom_kraken_db_test [2021/03/17 13:09] (current) – external edit 127.0.0.1 | ||
|---|---|---|---|
| Line 2: | Line 2: | ||
| Kraken에서 database란 아주 구체적으로 말하자면 디렉토리 명칭이다. DB 작성을 위해 모은 염기서열 fasta file 모음은 library라 부른다.Kraken DB가 수록한 내용은 library에서 추출한 모든 k-mer에 대해서 taxonomy 정보를 연결해 놓은 것이라고 생각하면 간단하다. 만약 어떤 k-mer가 여러 genome에 공통적으로 존재한다면 어떤 taxonomy 정보를 연결할 것인가? 이 경우에는 lowest common ancestor(LCA)를 연결한다. 보다 상세한 내용은 [[http:// | Kraken에서 database란 아주 구체적으로 말하자면 디렉토리 명칭이다. DB 작성을 위해 모은 염기서열 fasta file 모음은 library라 부른다.Kraken DB가 수록한 내용은 library에서 추출한 모든 k-mer에 대해서 taxonomy 정보를 연결해 놓은 것이라고 생각하면 간단하다. 만약 어떤 k-mer가 여러 genome에 공통적으로 존재한다면 어떤 taxonomy 정보를 연결할 것인가? 이 경우에는 lowest common ancestor(LCA)를 연결한다. 보다 상세한 내용은 [[http:// | ||
| ===== 설치 방법 ===== | ===== 설치 방법 ===== | ||
| - | Custom | + | ==== Standard Kraken database ==== |
| + | |||
| + | Kraken DB를 만들려면 taxonomy 정보가 포함된 서열 자료(fasta files)와 NCBI taxonomy 파일이 필요하다. **Standard DB**란, NCBI에서 제공하는 bacteria 및 virus의 유전체 서열을 이용한 것이다. 이들 파일에는 서열 ID에 gi 번호가 있어서 taxonomy와 연결되는 키 역할을 한다. 실제로 라이브러리 파일 하나를 열어보면 다음과 같다. | ||
| > | > | ||
| - | 단, 이제는 NCBI에서 bacteria 유전체 서열 전부를 압축한 all.fna.tar.gz를 더 이상 업데이트하지 않고 있으며 보관 위치도 변경되었다. 따라서 Kraken package의 download_genomic_library.sh를 다음과 같이 일부 수정해야 한다. | + | 단, 이제는 NCBI에서 bacteria 유전체 서열 전부를 압축한 all.fna.tar.gz를 더 이상 업데이트하지 않고 있으며 보관 위치도 변경되었다. 따라서 Kraken package의 download_genomic_library.sh를 다음과 같이 일부 수정해야 |
| + | FTP_SERVER=" | ||
| (수정 전) wget $FTP_SERVER/ | (수정 전) wget $FTP_SERVER/ | ||
| (수정 후) wget $FTP_SERVER/ | (수정 후) wget $FTP_SERVER/ | ||
| - | Bacteria/ | + | |
| + | **현재의 [[https:// | ||
| + | |||
| + | Bacteria/ | ||
| - | $ mkdir kraken-standard | ||
| $ PATH=/ | $ PATH=/ | ||
| - | | + | $ ./ |
| - | | + | (다운로드 및 압축 해제 과정 진행) |
| + | Kraken build set to minimize disk writes. | ||
| + | Creating k-mer set (step 1 of 6)... | ||
| + | Found jellyfish v1.1.6 | ||
| + | Hash size not specified, using ' | ||
| + | K-mer set created. [15m55.827s] | ||
| + | Skipping step 2, no database reduction requested. | ||
| + | Sorting k-mer set (step 3 of 6)... | ||
| + | K-mer set sorted. [1h3m36.646s] | ||
| + | Creating GI number to seqID map (step 4 of 6)... | ||
| + | GI number to seqID map created. [22m51.293s] | ||
| + | Creating seqID to taxID map (step 5 of 6)... | ||
| + | 215968 sequences mapped to taxa. [1m10.253s] | ||
| + | Setting LCAs in database (step 6 of 6)... | ||
| + | Finished processing 216310 sequences | ||
| + | Database LCAs set. [27m52.924s] | ||
| + | Database construction complete. [Total: 2h11m26.988s] | ||
| + | $ ls -lt | ||
| + | 합계 150000908 | ||
| + | -rw-rw-r-- 1 hyjeong hyjeong | ||
| + | -rw-rw-r-- 1 hyjeong hyjeong 71974784200 2016-12-13 10:11 database.kdb | ||
| + | -rw-rw-r-- 1 hyjeong hyjeong | ||
| + | -rw-rw-r-- 1 hyjeong hyjeong | ||
| + | -rw-rw-r-- 1 hyjeong hyjeong | ||
| + | -rw-rw-r-- 1 hyjeong hyjeong 71974784200 2016-12-13 08:16 database.jdb | ||
| + | drwxrwxr-x 4 hyjeong hyjeong | ||
| + | drwxrwxr-x 2 hyjeong hyjeong | ||
| + | $ kraken-build --clean --db kraken-standard | ||
| + | $ ls -lt | ||
| + | 합계 79691780 | ||
| + | drwxrwxr-x 2 hyjeong hyjeong | ||
| + | -rw-rw-r-- 1 hyjeong hyjeong 71974784200 2016-12-13 10:11 database.kdb | ||
| + | -rw-rw-r-- 1 hyjeong hyjeong | ||
| + | |||
| + | LCA setting 단계에서 어떻게 215968개의 서열이 처리되었는지는 잘 모르겠다. library에 존재하는 개별 fasta file의 수와는 분명히 다르다. 작업이 끝난 DB는 다른 곳으로 복사하여 사용해도 된다. 아니면 처음부터 원하는 디렉토리를 생성하여 적절한 환경변수(예: | ||
| + | {{ : | ||
| - | 작업이 끝난 DB는 다른 곳으로 복사하여 | + | ==== GI number의 퇴출 문제 ==== |
| + | 2016년 9월을 기하여 | ||
| | | ||
| ===== Kraken 실행 방법 ===== | ===== Kraken 실행 방법 ===== | ||
custom_kraken_db_test.1481586863.txt.gz · Last modified: (external edit)
