- 摘要
- 接到一个常规细菌的组装注释项目,不过客户提出想要获取关于组装结果与病毒之间的联系/按之前的操作,dfast没有病毒相关的数据库,无法满足客户需求。一番查阅,发现大家用这个VFDB数据库进行常规的病毒注释,下面将介绍一下使用该数据库进行注释的过程。由于比对工具diamond之前没有介绍过,此次也将一并介绍。
- 介绍
- DIAMOND简介
- DIAMOND是用于蛋白质和翻译DNA的搜索序列比对工具,旨在用于大序列数据的高性能分析。
- 主要功能包括:
- BLAST以100x-10,000x的速度对蛋白质和翻译的DNA进行成对比对。
- 移码比对,用于较长读段分析。
- 资源需求低,可以在标准台式机或笔记本电脑上运行。
- 各种输出格式,包括BLAST成对,表格和XML,还可以进行标准分类。
- VFDB数据库简介
- 毒力因子(Virulence factor,VFs)指由细菌,病毒,真菌等代谢产生的带有侵袭力和毒素等毒力性质的分子,主要用于微生物感染宿主时,通过抑制或逃避宿主的免疫反应等出入宿主组织细胞,并从宿主获得营养及自身增殖生长的目的。毒力因子可编码在可移动遗传元件(比如质粒、基因岛、噬菌体等)上并进行水平基因转移(传播),使无害细菌变成危险的病原菌,所以在鉴定毒力因子时一般会考虑基因岛、分泌蛋白等。
- 病原菌毒力因子数据库 VFDB 由中国医学科学院研发,收集整理了24个属100多种重要医学病原菌已知毒力因子的组成、结构、功能、致病机理、毒力岛、序列和基因组信息等内容,被广泛应用于毒力因子基因鉴定。
- DIAMOND简介
- 材料与方法
- 环境配置
- Version:Linux version 3.10.0-1160.15.2.el7.x86_64 ([email protected]) (gcc version 4.8.5 20150623 (Red Hat 4.8.5-44) (GCC) ) #1 SMP Wed Feb 3 15:06:38 UTC 2021
cat /proc/version
- CPU(s): 64
lscpu- 型号名称: Intel(R) Xeon(R) Silver 4216 CPU @ 2.10GHz
- Mem: 256G
free -g- Swap: 15G
交换内存,一般设置为0-10
- Swap: 15G
- Version:Linux version 3.10.0-1160.15.2.el7.x86_64 ([email protected]) (gcc version 4.8.5 20150623 (Red Hat 4.8.5-44) (GCC) ) #1 SMP Wed Feb 3 15:06:38 UTC 2021
- DIAMOND安装使用
- 安装方式
- conda安装:conda install diamond
- 安装方式
- VFDB数据库使用
- 官网地址:http://www.mgc.ac.cn/VFs/ 在官网下载数据库时,带有setA 的库为VFDB数据库核心库(set A),而setB为全库(setB), 其中setA仅包含经实验验证过的毒力基因,而setB则在setA的基础上增加了预测的毒力基因,选择好数据库后,直接用blast即可完成注释。
- 构建数据库
- gunzip VFDB_setA_pro.fas.gz #解压缩
- diamond makedb --in /home/yangxin/db/vfdb/VFDB_setA_pro.fas --db /home/yangxin/db/vfdb/VFDB_setA #构建数据库
- diamond blastp -db VFDB_setA_pro.fas.dmnd --query protein.fa --out vf_anno.txt #进行数据库比对注释
- 环境配置
- 结果展示
- 本地注释结果
- 结果说明
- 结果说明
- 在线注释
- 本地注释的结果没有很好体现了毒力因子的基因名称以及相关描述,后来又使用VFDB在线BLASTP进行注释,得到了另一个结果。注释链接:VFDB: Virulence Factors of Bacterial Pathogens (mgc.ac.cn)
- 注释结果
- 该表格为网络视图复制粘贴后进行了分列处理得到的结果,对于客户而言更加直观。于是将该表格作为注释交付结果。
- 本地注释结果
- 总结
- 尽管在线工具方便,但毕竟需要手动处理。还是建议探索本地分析,能够更好构建分析流程。