B题 基因测序分析
附件中数据是来自Gene Expression Omnibus 的 microRNA序列集(GEO)(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc¼GSE79017)。microRNA是长度为18-30个核苷酸,在多种生物过程中起到重要调节作用。数据集有三个类,其中肝12例,尿18例,肾18例从血浆中,用832个microRNAs进行测量。数据里大约占所有数值的66.1%和832个数值中的127个所有样本的microRNA都等于零。除去这127个microRNAs,其余的基因中仍有59.9%的,microRNAs值为0。请基于对数据分析和分类处理解决以下问题:
1、给出不同水平值microRNA在生物过程中起到的作用;
2、在问题1的基础上,考虑训练样本是两个类别,检验样本有三个类别如何进行分析和分类处理,不同水平的microRNA在生物过程中的作用发生了何种变化.
3、分析如果给出的microRNA的测序值有误差时,对结果有何影响。
数据读取处理后的结果:
变为excel后的结果:
上述题中问题一直接使用主成分分析法确定影响不同microRNA权重,分析影响程度及作用
问题二我们直接使用机器学习中的SVM分类算法即可,具体详细算法代码
针对问题三中的误差对结果的影响,这里就需要采用多项式回归来做了。