Bootstrap

2021.3.17丨致病菌毒力因子(VFDB)数据库注释

  • 摘要
    • 接到一个常规细菌的组装注释项目,不过客户提出想要获取关于组装结果与病毒之间的联系/按之前的操作,dfast没有病毒相关的数据库,无法满足客户需求。一番查阅,发现大家用这个VFDB数据库进行常规的病毒注释,下面将介绍一下使用该数据库进行注释的过程。由于比对工具diamond之前没有介绍过,此次也将一并介绍。
  • 介绍
    • DIAMOND简介
      • DIAMOND是用于蛋白质和翻译DNA的搜索序列比对工具,旨在用于大序列数据的高性能分析。
      • 主要功能包括:
        • BLAST以100x-10,000x的速度对蛋白质和翻译的DNA进行成对比对。
        • 移码比对,用于较长读段分析。
        • 资源需求低,可以在标准台式机或笔记本电脑上运行。
        • 各种输出格式,包括BLAST成对,表格和XML,还可以进行标准分类。
    • VFDB数据库简介
      • 毒力因子(Virulence factor,VFs)指由细菌,病毒,真菌等代谢产生的带有侵袭力和毒素等毒力性质的分子,主要用于微生物感染宿主时,通过抑制或逃避宿主的免疫反应等出入宿主组织细胞,并从宿主获得营养及自身增殖生长的目的。毒力因子可编码在可移动遗传元件(比如质粒、基因岛、噬菌体等)上并进行水平基因转移(传播),使无害细菌变成危险的病原菌,所以在鉴定毒力因子时一般会考虑基因岛、分泌蛋白等。
      • 病原菌毒力因子数据库 VFDB 由中国医学科学院研发,收集整理了24个属100多种重要医学病原菌已知毒力因子的组成、结构、功能、致病机理、毒力岛、序列和基因组信息等内容,被广泛应用于毒力因子基因鉴定。
  • 材料与方法
    • 环境配置
      • Version:Linux version 3.10.0-1160.15.2.el7.x86_64 ([email protected]) (gcc version 4.8.5 20150623 (Red Hat 4.8.5-44) (GCC) ) #1 SMP Wed Feb 3 15:06:38 UTC 2021
        cat /proc/version
      • CPU(s): 64
        lscpu
        • 型号名称: Intel(R) Xeon(R) Silver 4216 CPU @ 2.10GHz
      • Mem: 256G
        free -g
        • Swap: 15G
          交换内存,一般设置为0-10
    • VFDB数据库使用
      • 官网地址:http://www.mgc.ac.cn/VFs/ 在官网下载数据库时,带有setA 的库为VFDB数据库核心库(set A),而setB为全库(setB), 其中setA仅包含经实验验证过的毒力基因,而setB则在setA的基础上增加了预测的毒力基因,选择好数据库后,直接用blast即可完成注释。
    • 构建数据库
      • gunzip VFDB_setA_pro.fas.gz #解压缩
      • diamond makedb --in /home/yangxin/db/vfdb/VFDB_setA_pro.fas --db /home/yangxin/db/vfdb/VFDB_setA #构建数据库
      • diamond blastp -db VFDB_setA_pro.fas.dmnd --query protein.fa --out vf_anno.txt #进行数据库比对注释
  • 结果展示
    • 本地注释结果
      • 结果说明
    • 在线注释
      • 注释结果
        • 该表格为网络视图复制粘贴后进行了分列处理得到的结果,对于客户而言更加直观。于是将该表格作为注释交付结果。
  • 总结
    • 尽管在线工具方便,但毕竟需要手动处理。还是建议探索本地分析,能够更好构建分析流程。
  •  
;