生信实践 - 悦读

一.组装
虽然组装只要三步代码，但还是懒的组，因为有人组好了，setA的Group4里都有，setB问其他人要吧。
二.blast
1.建库

 makeblastdb -in /disk1/bioinfo/Group4/Assemble_Soybean_CLR/Soybean_CLR.contigs.fasta -dbtype nucl -parse_seqids -out CLR

/disk1/bioinfo/Group4/Assemble_Soybean_CLR是我们的组装结果。Soybean_CLR.contigs.fasta 文件就是组装后的文件。
2.blast

tblastn -query /disk1/bioinfo/Group4/EIN2.fasta -out Soybean_CLR_EIN2.blast -db CLR -outfmt 6 -evalue 1e-5 -num_threads 8
tblastn -query /disk1/bioinfo/Group4/BRI1.fasta -out Soybean_CLR_BRI1.blast -db CLR -outfmt 6 -evalue 1e-5 -num_threads 8

和EIN2.fasta 和BRI1.fasta进行比对。
3.观察比对结果，发现是那个基因
setA BRI1 set B EIN2
4.观察比对结果，选出e值最小的，最长的基因。然后取出
这个观察很简单，然后取出，是从组装结果取出，就是Soybean_CLR.contigs.fasta（我们是），怎么取出，可以用正则表达式，我用的比较笨的方法，下载到windows上，然后。。。
三.预测
1.预测

augustus --strand=both --species=arabidopsis 取出基因的文件位置 >result.log

2.从Augustus的结果文件中提取所有的蛋白质序列（这步蛋白质定位信号预测要用到，所以我提前了,也方便）
这里我用了其他人的方法，白嫖不香吗，大群里有，讨论过。
3.从蛋白质序列中取出最长的蛋白质序列
4.五个同源蛋白序列，然后mega。
群里介绍过怎么找，白嫖的话，BRI1Group4中mega序列.fasta ，弄好的，最后那个结果要改一改可能不一样。EIN2 找月亮，她应该有。
四.蛋白质定位信号预测
1.建立三个文件夹每个里都有Augustus的结果文件中提取的所有的蛋白质序列(下面全部用Arabidopsis.fasta代替）
SignalP、TargetP、WoLFPSORT

2.SignaIP

signalp -org euk -fasta  Arabidopsis.fasta  -gff3 -mature

3.TargetP

targetp -org pl -fasta Arabidopsis.fasta -gff3 -mature

4.WoLFPSORT

p  -r  /disk1/bioinfo/DEMO/protein/wolfpsort/WoLFPSort  /disk1/bioinfo/Group   #把WoLFPSort 移到你的目录下
cd ./WoLFPSort/bin/psortModifiedForWolfFiles #打开你目录下的文件夹
./psortModifiedForWoLF  -t  Arabidopsis.fasta的位置

在psortModifiedForWolfFiles目录下生成六个中间文件就是结果
在这里插入图片描述
emmmm这个分析的时候可视化有点问题，我也不知道怎么搞了，所以我选择了windows的WoLF PSORT。

五.不会真有人学有余力吧，不会吧，不会吧