Bootstrap

三代PacBio HiFi SV检测工具的安装

三代PacBio HiFi SV检测工具的安装

  • 这里主要介绍两个安装及运行比较麻烦的两个SVs检测工具,分别是SVision和PAV。
  • 常用的针对PacBio Hifi的软件如有PBSV,CuteSV,Sniffles等,都可以直接用conda安装。
1. SVision 安装及运行
  • GitHub地址
  • 这里我将从From source开始安装SVision。
1. 跟随GitHub上的说明安装
## Get latest source code
git clone https://github.com/xjtu-omics/SVision.git
cd SVision

## Create conda environment and install SVision 
conda env create -f environment.yml
python setup.py install
2. Debugging
  • 如果1.安装一切顺利,及可以跳过这里
  • 如果安装不顺利,主要在于conda env create -f environment.yml这一步,可能由于pip的安装问题导致失败。
  • 解决方法:
    • 我们可以进入未完全搭建好的svisionenv (conda activate svisionenv), 然后手动安装pip, 这里我们可以优先安装比较难装的python包,如opencv-python-headless,tensorflow1.14.0等,最后我们要注意对应的numpy版本,这里tensorflow1.14.0需要的是numpy1.16.4。如果numpy版本不对,可以pip移除,然后直接在/path/conda//envs/sivisionenv 目录下进行删除numpy,再重新安装numpy1.16.4。
  • 最后便再执行一遍python setup.py install
3. 测试
    1. 测试数据准备,根据GitHub上的说明下载CNN model数据
    1. 运行测试命令
mkdir /path/to/svision_out
SVision -o /path/to/svision_out -b /path/to/bamfile -m /home/user/svision_model/svision-cnn-model.ckpt -g /path/to/reference.fa -n HG00733 -s 5 --graph --qname
2. PAV 安装及运行
git clone --recursive https://github.com/EichlerLab/pav.git
# Install dependencies
pip install 
    BioPython
    intervaltree
    matplotlib
    numpy
    pandas
    pysam
    scipy

conda install
    minimap2 (default aligner)
    lra (optional alternate aligner)
    samtools
    bedToBigBed (optional, from UCSC browser tools)
    1. 测试运行:根据EXAMPLE.md 进行下载example数据,并运行测试命令
mkdir assemblies

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/HGSVC2/working/20221202_PAV_Example/* -P assemblies/

mkdir hg38_no_alt

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/HGSVC2/technical/reference/20200513_hg38_NoALT/* -P hg38_no_alt/
  • 随后我们建一个工作目录,将git clone下的pav文件夹中的assemblies.tsv和config.json(可以用find命令搜索)复制到该目录下,并将下载的数据assemblies和hg38_no_alt文件夹中的文件移动到该目录下。
  • 运行命令:
conda activate 激活环境
smk=/path/to/git/clone/pav/Snakefile   # git clone下pav文件夹中的Snakefile路径
snakemake -pks $smk -c 64 
    1. 注意:
      1. 这里的测试数据是HG00733,如果要测试其他数据,需要下载对应参考序列和bam文件,并修改assemblies.tsv和config.json中的data_dir和reference_dir。
      1. 这里的测试命令中-c 64表示使用64核运行,根据自己的机器配置调整。
;