Bootstrap

生信实践

一.组装
虽然组装只要三步代码,但还是懒的组,因为有人组好了,setA的Group4里都有,setB问其他人要吧。
二.blast
1.建库

 makeblastdb -in /disk1/bioinfo/Group4/Assemble_Soybean_CLR/Soybean_CLR.contigs.fasta -dbtype nucl -parse_seqids -out CLR

/disk1/bioinfo/Group4/Assemble_Soybean_CLR是我们的组装结果。Soybean_CLR.contigs.fasta 文件就是组装后的文件。
2.blast

tblastn -query /disk1/bioinfo/Group4/EIN2.fasta -out Soybean_CLR_EIN2.blast -db CLR -outfmt 6 -evalue 1e-5 -num_threads 8
tblastn -query /disk1/bioinfo/Group4/BRI1.fasta -out Soybean_CLR_BRI1.blast -db CLR -outfmt 6 -evalue 1e-5 -num_threads 8

和EIN2.fasta 和BRI1.fasta进行比对。
3.观察比对结果,发现是那个基因
setA BRI1 set B EIN2
4.观察比对结果,选出e值最小的,最长的基因。然后取出
这个观察很简单,然后取出,是从组装结果取出,就是Soybean_CLR.contigs.fasta(我们是),怎么取出,可以用正则表达式,我用的比较笨的方法,下载到windows上,然后。。。
三.预测
1.预测

augustus --strand=both --species=arabidopsis 取出基因的文件位置 >result.log

2.从Augustus的结果文件中提取所有的蛋白质序列(这步蛋白质定位信号预测要用到,所以我提前了,也方便)
这里我用了其他人的方法,白嫖不香吗,大群里有,讨论过。
3.从蛋白质序列中取出最长的蛋白质序列
4.五个同源蛋白序列,然后mega。
群里介绍过怎么找,白嫖的话,BRI1Group4中mega序列.fasta ,弄好的,最后那个结果要改一改可能不一样。EIN2 找月亮,她应该有。
四.蛋白质定位信号预测
1.建立三个文件夹 每个里都有Augustus的结果文件中提取的所有的蛋白质序列(下面全部用Arabidopsis.fasta代替)
SignalP、TargetP、WoLFPSORT

2.SignaIP

signalp -org euk -fasta  Arabidopsis.fasta  -gff3 -mature

3.TargetP

targetp -org pl -fasta Arabidopsis.fasta -gff3 -mature

4.WoLFPSORT

p  -r  /disk1/bioinfo/DEMO/protein/wolfpsort/WoLFPSort  /disk1/bioinfo/Group   #把WoLFPSort 移到你的目录下
cd ./WoLFPSort/bin/psortModifiedForWolfFiles #打开你目录下的文件夹
./psortModifiedForWoLF  -t  Arabidopsis.fasta的位置

在psortModifiedForWolfFiles目录下生成六个中间文件就是结果
在这里插入图片描述
emmmm这个分析的时候可视化有点问题,我也不知道怎么搞了,所以我选择了windows的WoLF PSORT。
在这里插入图片描述

五.不会真有人学有余力吧,不会吧,不会吧

;