서열 데이터베이스의 검색(BLAST)
NCBI에서는 BLAST Help를 통해서 BLAST 프로그램 및 데이터베이스에 대한 짧은 소개, BLAST 데이터베이스에 대한 설명, 그리고 데이터베이스 설치 방법 등 풍부한 문서 자료를 제공한다. 블로그 형식을 갖춘 NCBI Insignts에서는 NCBI가 제공하는 여러 서비스와 자원에 대한 중요한 공지사항(예를 들어 데이터베이스 체계 변경)이 올라온다. BLAST 관련 공지를 이메일로 직접 받으려면 BLAST-Aannounce 메일링 리스트에 가입하면 된다.
blastall 명령어로 잘 알려져 있는 legacy blast는 2.2.26이 마지막 버전으로서 더 이상 지원되지 않는다. BLAST+로 전환하는 것이 바람직하지만 아직도 많은 응용프로그램이 legacy blast를 기반으로 하고 있음을 부인할 수 없다.
BLAST 활용은 너무나 기본적인 것이라서 여기에서 각 명령어의 옵션을 설명하지는 않겠다. 자세한 것은 Blast+ Command Line Applications User Manual을 참조하기 바란다.
Bi-directional best hit(BBH) 또는 reciprocal best hit(RBH)의 탐색
두 유전자 집합(염기서열 혹은 단백질 서열) 사이에 BBH를 추출하려면 blast_rbh.py를 사용한다. 실제 계산에는 NCBI BLAST+가 이용된다. 뒤에서 소개할 OrthoMCL은 2종 이상의 유전자 집합에 대한 상동유전자를 추출하는 것이 목표이지만 1:1 비교를 통한 all_blast.bbh 파일을 제공하므로 이를 활용할 수 있다.
$ python blast_rbh.py -a prot -t blastp -o output.tsv protA.fasta protB.fasta
적극적으로 검토해 보지는 않았으나 GET_HOMOLOGUES도 유용한 프로그램으로 여겨진다.