Bootstrap

2024年第五届“华数杯”全国大学生数学建模竞赛 C题详细思路+详细matlab代码

没有更新完之前,专栏价格为59,更新完毕之后恢复到99. 专栏内包含2024年所有数学建模比赛思路和代码,有些重要比赛着重更新(华数杯、国赛、美赛),小比赛可能会有chatgpt4更新,只需订阅一次。有些文章没有完整代码,请到专栏内查找最新代码和思路。如果比赛结束后没有更新代码(可能会有事情来不及更新)赛后我会统一退款。

2024年第五届“华数杯”专栏地址:

2024 年华数杯全国大学生数学建模竞赛 C 题 老外游中国 第一份详细代码。-CSDN博客https://blog.csdn.net/m0_52343631/category_12482955.html?spm=1001.2014.3001.5482

目录

2024年第五届“华数杯”专栏地址:https://blog.csdn.net/m0_52343631/category_12482955.html?spm=1001.2014.3001.5482

摘要

一、 问题重述

二、 问题分析

三、 模型假设

四、 符号说明

五、 模型的建立与求解

六、 模型的评价、缺点与推广

七、 参考文献

附录


2022年优秀论文

摘要

针对问题一,由于样本无法通过 Kolmogorov-Smirnov 正态性检验,因此先利用非
参数方法中的 Wilcoxon 符号秩检验 对插层前后的样本进行分析。结果表明,结构变
量和产品性能的六个特征在插层前后变化极其显著。然后,利用 Friedman 秩和检验
对不同插层率水平下的数据进行检验,检验结果表明不同插层率下的差异并不显著。
最后,为避免假阳性,利用 Nemenyi 检验 对数据两两比较,发现插层率的变化并不会
对结构变量和产品性能造成较大的影响,只能显著降低孔隙率。
针对问题二,首先添加 类似 𝒙 𝟐 , 𝒙 𝟑 , 𝒙 𝟏 𝒙 𝟐 的非线性数据特征 。接着,我们将特征的
关系分为整体和个体。对于工艺参数和结构变量两组变量整体间的关系,利用典型相
关分析分析组间的关系。对于两组变量中共五个特征之间的关系,不仅使用经典统计
多元线性标准化逐步回归 ,以 标准化系数 作为指标判断变量之间的 线性关系 ;还使
用可解释性较好的 随机森林、 AdaBoost GBDT XGBoost LightGBM CatBoost
利用 特征重要性 观察变量之间的 非线性关系 。预测 𝑥 1 , 𝑥 2 , 𝑥 3 , 𝑥 4 , 𝑥 5 时,拟合性能最好的
模型分别为 XGB XGB Cat Cat XGB 𝑅 2 分别为 0.9999 0.9999 0.9999 0.9293
0.9750 。结果表明,以 𝑥 1 𝑥 3 的线性影响最大, 𝑥 3 , 𝑥 4 , 𝑥 5 三者之间的交互作用的非线性
影响最大; 𝑥 2 为因变量时, 𝑥 3 的线性影响最大, 𝑥 3 , 𝑥 5 的非线性影响最大;以 𝑥 3 , 𝑥 4 为因
变量时, 𝑥 1 𝑥 2 的线性影响最大, 𝑥 1 , 𝑥 2 的交互作用的非线性影响最大;以 𝑥 5 为因变量
时, 𝑥 1 2 𝑥 2 2 的线性影响最大,所有特征的非线性影响较为平均。
针对问题三,首先研究结构变量与产品性能的关系。先进行典型相关分析,再对
个体分析。预测 𝑥 3 , 𝑥 4 , 𝑥 5 , 𝑥 6 , 𝑥 7 , 𝑥 8 最优的模型中,只有 𝑥 3 GBDT ,其余均为 XGB
最优的 𝑅 2 都高于 0.9999 。预测 𝑥 3 𝑥 4 时, 𝑥 7 𝑥 7 , 𝑥 8 的交互作用的线性影响最大,
𝑥 6 , 𝑥 7 , 𝑥 8 的交互作用的非线性影响最大;预测 𝑥 5 时, 𝑥 6 𝑥 6 , 𝑥 8 的交互作用的线性影响
最大, 𝑥 6 , 𝑥 7 , 𝑥 8 的交互作用的非线性影响最大;预测 𝑥 6 时, 𝑥 3 𝑥 3 , 𝑥 5 的交互作用的线
性影响最大,预测 𝑥 7 时, 𝑥 3 , 𝑥 5 本身及其交互作用的线性影响最大,预测 𝑥 8 时, 𝑥 3 , 𝑥 3 3
𝑥 3 , 𝑥 5 的交互作用的线性影响最大,对三者的非线性关系影响最大的都是 𝑥 3 , 𝑥 4 , 𝑥 5
交互作用。其次,研究结构变量之间和产品性能之间的关系,预测 𝑥 3 时, 𝑥 4 的线性和
非线性影响最大预测 𝑥 4 时, 𝑥 3 的线性影响最大, 𝑥 3 𝑥 5 的交互作用的非线性影响最大
预测 𝑥 5 时, 𝑥 3 𝑥 3 𝑥 4 的交互作用的线性、非线性影响最大;预测 𝑥 6 时, 𝑥 7 的线性影
响最大, 𝑥 7 𝑥 8 的交互作用的非线性影响最大;预测 𝑥 7 时, 𝑥 8 的线性、非线性影响最
大;预测 𝑥 8 时, 𝑥 7 的线性、非线性影响最大。最后,以最大化过滤效率作为目标函数,
将结构变量和工艺参数非负作为约束条件,以使用 增强精英保留改进的遗传算法
(SEGA) 进行单目标寻优。在目标函数的选择上,分别使用拟合性能更好、表达非线性
关系的机器学习模型,和拟合能力较弱、表达线性关系的回归方程进行寻优。使用机
器学习时的最大过滤效率为 83.15% ,此时的接受距离和热风速度分别为 0.29cm
8085.94r/min ;使用回归方程时的最大过滤效率仅为 48.82% ,但是接受距离和热风速
度的值都为 0.0001 。这说明变量之间的非线性关系更加显著,且最终结果为 83.15%
针对问题四,我们同样选用进化算法,且是进化算法中最先进的 基于参考点改进
的非支配排序遗传算法 (NSGA- ) 。使用机器学习时,最大的过滤效率为 83.17% ,最
小的过滤阻力为 27.92Pa 。由于存在多个种群个体都寻到最优解,接受距离处在区间
[11.32, 18.28] 内,均值为 13.41 ,而热风速度处在 [1192.32, 1964.71] 之间,均值为 1666.05
关键词: 非线性特征衍生;相关与回归;集成树模型; SEGA NSGA-

一、 问题重述

1.1 问题背景
随着社会生产力的快速提高和全球对环境保护重视程度的加深,以及新型冠状病
毒等全球安全突发性时间的诱导,国内外医用口罩的需求急剧增加 错误 ! 未找到引用源。 。插层熔
喷非织造材料是口罩生产的重要原材料,因其独特的插层技术可以插入功能性纤维使
得材料性能稳定,具有孔径小、孔隙率高等特点,与其他工艺制得的非织造材料相比
过滤效果更好、屏蔽性能更强 错误 ! 未找到引用源。 。因此,优化插层熔喷非织造材料的工艺过程
势在必行,通过建立插层熔喷非织造材料的工艺模型,优化工艺参数提升材料性能,
实现高通量织造过滤性能优越、产业线成本低廉的目标,为大范围工业化推广提供了
可靠的理论基础。插层熔喷非织造材料技术的成熟与推广,将会极大拓宽熔喷材料的
市场规模,不仅能更好的满足国家疫情防控的战略需求,还能推动相关纺织熔喷行业
的快速稳定发展。
1.2 问题提出
在本文中,我们需要根据题目给出的实验数据集,构建工艺参数与结构变量之间、
结构变量与产品性能之间的关系模型,分析参数关系,构建预测模型,并基于构建的
模型寻找适用于工业生产的最优工艺参数。本文要解决的问题如下。
1.2.1 问题一的提出
题目在 data1 数据集已经给出了插层前后的对照实验结果,其中包括在插层前后
的厚度、孔隙率、压缩回弹性这些结构变量以及过滤阻力、过滤效率、透气性这些产
品性能。为了研究插层对熔喷非织造材料制备工艺的影响,我们需要根据数据集,分
析在插层这一变量的影响下,结构变量、产品性能是否发生显著变化,并进一步分析
插层率的大小是否会显著影响这些指标的变化。
1.2.2 问题二的提出
本题要求利用所给的 data3 数据集探究工艺参数与结构变量之间的关系,即建立
接受距离、热空气速度与厚度、孔隙率及压缩回弹性之间的关系模型,实现根据已知
工艺参数数据集预测结构变量的作用,并完成题中表 1 的结构变量数据预测。
1.2.3 问题三的提出
本题与问题二类似,要求我们利用所给 data3 数据集探究结构变量与产品性能之
间的关系,以及结构变量之间、产品性能之间的关系,并建立关系模型。而后在第二
问的基础上,得到从工艺参数到产品性能之间的关系预测模型,并且利用寻优算法求
得产品过滤效率最高时的工艺参数。
1.2.4 问题四的提出
本题在问题三和问题二所求的的函数的基础上,添加了针对接受距离、热风速度、
厚度和压缩回弹性的约束条件,并且要求对最大化过滤效率和最小化过滤阻力双目标
进行寻优。

二、 问题分析

2.1 问题一的分析
针对问题一,首先要确定插层这一因素的有无是否会显著影响结构变量及产品性
能的变化,假设检验是一种切实可行的方法。由于各指标数据的非正态性,需引入非
参数检验中 Wilcoxon 符号秩检验对插层前后的每一指标数据进行检验,判断插层的
有无是否会造成显著影响。而后为进一步分析插层率水平对指标变化的影响,通过将
低中高三种插层率水平下的各指标数据进行 Friedman 秩和检验并采用 Nemenyi 检验
进行两两比较,检验插层率水平与各指标变化之间的关系,评判插层率水平会对哪些
指标的变化造成显著影响。
2.2 问题二的分析
针对问题二,我们数据进行统计检验和特征衍生。为探究变量整体间的关系,我
们使用典型相关分析。为探究五个特征之间的关系,我们不仅使用了经典统计的标准
化逐步回归方法,还使用了可解释性较强的机器学习集成树模型。分别利用标准化回
归系数和特征重要性判断变量之间的关系。最后,我们选用拟合性能最好的模型,采
用十折交叉验证法对模型进行性能评估,最后对题目表 1 的数据进行预测。
2.3 问题三的分析
针对问题三,与问题二类似,我们延续第二问的模型,同样分整体和个体进行建
模和求解。在得到参数之间的函数关系后,将之带入增强精英保留改进的遗传算法进
行寻优,寻找到最优的工艺参数。在寻优结束后,我们使用回归方程进行二次寻优,
对结果进行对比和补充。
2.4 问题四的分析
针对问题四,同样选用启发性算法进行建模。与第三问最后的寻优相同,我们在
设置启发性算法中的最大化和最小化目标时,使用了拟合能力最强的集成树模型的预
测方法建立算法。在寻优结束后,我们同样使用回归方程进行二次寻优,最终,最优
的结果依旧是使用树模型的预测方法。

三、 模型假设

为方便建模和分析,我们提出如下假设:
1. 附件提供的数据真实可信,是经过真实的实验所得的数据,且不存在人为的
删改和破坏。
2. 在实验中,各组实验除了给出的特征以外,其余的所有影响因子均保持不变,
实验数据都是基于控制变量法所得的有效数据。
3. 每一条实验数据来自的每一次实验都相互独立,不存在样本之间的影响。

四、 符号说明

五、 模型的建立与求解

5.1 问题一模型的建立与求解
5.1.1 数据特征观测
为方便编程和论文中图标的表示,将数据中的接收距离、热风速度、厚度、孔隙
率、压缩回弹性、过滤阻力、过滤效率、透气性分别标记为 𝑥 1 , 𝑥 2 , … 𝑥 7 , 𝑥 8 共八个特征。
为研究插层前后的特征变化规律,以及插层率的数值是否对变化有影响,可以使
用统计模型进行计算。经典统计中的几乎所有模型的建立都依赖于原始数据或残差符
合正态分布的假定,而服从正态分布的数据在回归任务中往往表现得比非正态的数据
更加稳定。而且,符合正态分布的数据可以使用经典统计方法,而非正态的数据就需
要数据变换或使用非参数统计的方法进行统计计算。因此,在建模之前,首先要对数
据的正态性进行检验。 Kolmogorov-Smirnov 检验是非参数统计的分布检验方法,原假
设是数据符合给定的分布。我们利用 KS 检验对原始数据的正态性检验,结果如表 1
所示,表中所有的 P-value 值都远远小于 0.05 ,需要拒绝原假设,原始数据不符合正
态分布。采用核密度图直观地展示数据样本的分布特征,如图 1 所示,显然,插值前
后的结构变量和产品性能的各指标均不符合正态分布

六、 模型的评价、缺点与推广

6.1 模型的优点
1. 在探究变量关系之前,我们利用统计检验和相关分析等方法,优先判断变量
之间的线性关系的可能性。发现变量之间可能存在的交互性和曲线关系后,
我们进行特征衍生,添加了多项式高次项和交互项因子。
2. 在探究工艺参数、结构变量和产品性能之间的关系时,我们不仅对整体的“变
量组”之间的关系进行研究,而且对“组内变量”的个体之间的关系进行研
究,充分考虑了特征之间所有可能的潜在关系。
3. 在探究变量个体关系时,我们将关系分为非线性和线性进行分别讨论。研究
线性关系时,我们利用统计模型的多元标准化逐步回归法,以标准化系数作
为指标直观反映线性关系;研究非线性关系时,我们利用可解释性较强的集
成树模型,利用拟合能力更强的树模型所输出的特征重要性作为指标反映非
线性的关系。
4. 在进行单目标和双目标寻优时,我们没有使用较为简单的进化算法,而是对
基础的遗传算法进行改进。针对选择、交叉和变异算子,分别选用增强保留
的遗传算法进行单目标寻优,以及基于参考点的 NSGA- Ⅲ算法进行多目标寻
优。寻优的效率更快,时间复杂度更小。
5. 使用进化算法进行寻优时,我们不仅选用了拟合能力更强、表达变量非线性
关系的机器学习模型作为目标函数,而且对比了拟合能力更强较弱,表达线
性关系的回归方程作为目标函数。将两者的结果进行比较,突出变量间非线
性关系更强的特点,以及选用机器学习模型的必要性和正确性。
6.2 模型的缺点
1. 在利用回归模型寻找变量之间的关系时,由于时间原因,只考虑了简单的线
性模型,而未考虑可能存在的指数、对数等非线性关系。
6.3 模型的推广
1. 本文所给的数据较为复杂,但数据样本量较少,故而在模型的拟合上,机器
学习的性能明显大于经典统计模型。当面对实际情况中更为复杂的数据,应
当更加重视回归方程的构建,利用指数函数、幂函数、对数函数等方法添加
非线性关系
2. 近年来机器学习和强化学习的不断发展,强化学习模型在寻优和决策中表现
出了较好的性能。因此,在实际应用中,不仅可以使用启发性的进化算法,
而且可以考虑强化学习模型等方法

七、 参考文献

[1]. 韩玲 , 胡梦缘 , 马英博 , 郝栋连 . 医用非织造口罩材料及其新技术的研究现状 [J]. 西安
工程大学学报 ,2020,34(02):20-25.DOI:10.13338/j.issn.1674-649x.2020.02.003
[2]. 程可为 , 刘亚 , 于雯 , 赵义侠 . 新型熔喷非织造材料研究进展 [J]. 纺织导报 ,2021(12):61-
66.DOI:10.16481/j.cnki.ctl.2021.12.015
[3]. Breiman L. Random forests[J]. Machine learning, 2001, 45(1): 5-32.
[4]. Freund Y, Schapire R E. Experiments with a new boosting algorithm[C]//icml. 1996, 96:
148-156.
[5]. Friedman J H. Greedy function approximation: a gradient boosting machine[J]. Annals
of statistics, 2001: 1189-1232.
[6]. Chen T, Guestrin C. Xgboost: A scalable tree boosting system[C]//Proceedings of the
22nd acm sigkdd international conference on knowledge discovery and data mining.
2016: 785-794.
[7]. Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient boosting decision
tree[J]. Advances in neural information processing systems, 2017, 30.
[8]. Dorogush A V, Ershov V, Gulin A. CatBoost: gradient boosting with categorical features
support[J]. arXiv preprint arXiv:1810.11363, 2018.
[9]. Deb K, Pratap A, Agarwal S, et al. A fast and elitist multiobjective genetic algorithm:
NSGA-II[J]. IEEE transactions on evolutionary computation, 2002, 6(2): 182-197.
[10].
Deb K, Jain H. An evolutionary many-objective optimization algorithm using
reference-point-based nondominated sorting approach, part I: solving problems with box
constraints[J]. IEEE transactions on evolutionary computation, 2013, 18(4): 577-601.

附录

;