Bootstrap

面向大数据专业人才培养的数字化案例资源构建


面向大数据专业人才培养的数字化案例资源构建

彭岩  王洁 

(首都师范大学管理学院,北京 100048)

DOI:10.11959/j.issn.2096-0271.2025007

引用格式:

彭岩,王洁.面向大数据专业人才培养的数字化案例资源构建[J].大数据,2025,11(01):56-68. 

PENG Y,WANG J.Construction of digital case resources for the cultivation of big data professionals[J].BIG DATA RESEARCH,2025,11(01):56-68.

摘 要 随着大数据产业的蓬勃发展,大数据相关专业的教育受到广泛关注。然而,实践教学与真实应用场景的分离成为大数据专业人才培养的一大挑战。为了解决这一问题,探讨了大数据专业核心课程数字化案例库的建设及其融入实践教学的创新方法,提出了构建系统化、系列化的数据资源案例库的路径。案例库构建采用动态分层设计,完整呈现大数据处理流程,支持动态扩展,旨在有效进行大数据相关专业的实践课程建设和实践教学,为大数据专业人才实践能力培养赋能。以高风险人口心脑血管疾病数字化案例为例,阐述了案例资源与理论教学融合的课程模式与课程实施过程。通过与国家级数据中心的合作,实现实践教学与真实应用场景的紧密结合。案例资源的建设将提升大数据专业学生的理论素养和实践能力。

关键词 数字化案例;大数据专业;实践教学;动态分层设计

0 引言

2011年5月,麦肯锡全球研究院发布报告,首次给出了大数据较为明确的定义:大数据是指那些体积超出常规数据库的工具获取、存储、管理和分析能力的数据集。2022年1月,国务院印发《“十四五”数字经济发展规划》,提出强化高质量数据要素供给、加快数据要素市场化流通、创新数据要素开发利用机制;针对创新数据要素开发利用机制,提出以实际应用需求为导向,探索建立多样化的数据开发利用机制。2024年4月,国家数据局与相关部委联合印发《加快数字人才培育支撑数字经济发展行动方案(2024—2026年)》,指出适应数字产业发展和企业转型升级需求,大力培养数字技能人才。为响应大数据人才培养需求,教育部公布的数据显示,截至2023年,全国已有254所高等院校开设了“大数据管理与应用”专业,775所高校开设了“数据科学与大数据技术”专业,其他相关专业还有“数据计算及应用”“生物医药数据科学”等。

近十年来,我国高校大数据人才培养规模持续扩大,培养模式日趋成熟,课程体系逐步规范化。大数据相关专业课程旨在培养学生采集、处理、存储和分析大数据等方面的技术及应用能力,涵盖大数据工程、数据科学与大数据技术、统计学等相关领域。以“大数据管理与应用”专业为例,教育部高等学校管理科学与工程类专业教学指导委员会指导编著的《大数据管理与应用专业课程体系》将专业课程细分为三大类,共计17门课程。具体来说,大数据技术类包括“大数据技术基础”“Python编程基础”等4门课程;大数据分析方法类包含“大数据智能分析理论与方法”“数据挖掘与机器学习”等5门课程;大数据管理决策类涵盖“大数据计量经济分析”“大数据管理方法与应用”等8门课程。规范化的课程体系有助于全面提升学生的专业技能及管理决策素养,以适应大数据人才培养的需求。

据不完全统计,国外数据科学专业的本硕博学位项目的数量分别为5 601项、4 179项和301项。王元卓等综合分析了大数据专业建设与人才培养中的教材选用、课程设置等现状,提出了该目标的实施方案。付琳探讨了新文科背景下的大数据管理与应用专业人才培养路径,为专业建设中的优化课程设置、创新考核方法等提出了具体建议。黄贤英等以大数据分析方向为例,介绍了案例库建设的目标、设计思路、内容框架和实施效果,并从真实应用出发,对大数据分析任务进行流程分解,设计一系列小型案例。冯永等采用科研项目提炼、学科竞赛创新等多途径众智贡献与协同方式,面向社交网络、网上购物等典型大数据场景,建设了场景化特色案例库。吴锦梦等探讨了数据挖掘与大数据分析课程的教学方法,提出采用双语教学模式将国内外新案例融入教学内容,旨在拓宽学生知识面,激发学生学习兴趣。林海涛提出通过发展校企合作、实施“企业案例驱动”教学,强化“案例和项目驱动”思想的运用,促进大数据人才培养模式向应用型转变。

然而,我国缺乏面向大数据专业核心课程的系统化、系列化的数字化案例库,大多数是各院系或任课教师各自收集、整理和引用的数据集。因此,急需整合多来源、多类型的真实数据资源,以支撑核心课程的实践教学。在此背景下,笔者团队与国家级数据中心合作,构建面向大数据专业核心课程的系统化、系列化案例库,以数字化案例资源建设赋能大数据专业人才实践能力培养。

1 大数据专业案例教学现状和特点

1.1 教学模式以理论教学驱动

在大数据相关专业的教学过程中,实践教学是对理论知识的应用和延伸,更是培养学生实践能力和创新思维的关键环节。然而,当前在大数据专业的教学中普遍存在理论教学与实践教学分割的问题,严重影响了学生的学习效果和发展潜力。首先,理论教学与实践教学分割导致学生对知识的理解和掌握停留在理论层面。尽管理论教学为学生讲授了大数据的基本概念、原理、算法和技术等必要知识,但缺乏实践环节导致学生只是被动接受知识,难以将理论与实际结合,学习效果不佳。其次,理论教学与实践教学分割限制了学生的实践能力和问题解决能力的提升。面对真实的大数据问题时,他们可能会无从下手,无法运用所学知识进行数据分析和处理,这种能力上的欠缺导致学生难以适应实际工作场景。此外,学生被动地接受知识,导致其难以在理论知识学习过程中同步进行数字化案例的实践,难以形成完整的数据分析与处理能力体系。

1.2 实践教学与真实应用场景分离

大数据专业的学生需要通过实践深化对理论知识的理解。然而,目前许多课程中的案例和实验往往是独立且分散的,各个章节的案例大多相互独立。这导致学生难以将所学知识串联起来,形成一个完整的大数据分析知识网络,容易出现以下问题。

aa0e7371ab4cd07ee908720b205ca576.jpeg 知识点碎片化。当每个知识点都通过一个个独立的案例或实验进行教学时,学生对该知识点的理解较为片面,他们可能掌握了某些技术或算法,但不清楚这些技术在整个数据分析流程中的位置和作用,以及如何与其他技术相结合。

ff6a6b999ca6ec5a4c3859f3478c144e.jpeg 缺乏与实际应用的联系。独立案例难以完全模拟真实世界中的复杂问题,学生可能在简单、独立的案例中成功应用课堂上讲授的知识,但面对真实世界中的复杂数据分析需求时却无从下手。

2ee035fceec2f0461a593e31858fe902.jpeg 难以形成知识网络。知识网络是由多个知识点相互连接而成的,能够帮助学生更好地理解知识的内在联系和逻辑关系。然而,如果知识点和相关实验被独立讲授,学生难以形成全面而连贯的知识网络,导致学生在解决问题时缺乏系统性和整体性的视角。

adc860222b8def2714f4830eaabcb6ca.jpeg 缺乏综合应用能力。数据分析往往需要综合运用多种技术和算法,如果学生的综合应用能力不足,将影响其对后续课程的学习。

1.3 教学案例需求量远大于案例资源

大数据案例的开发需要真实场景数据资源,而高质量的大数据往往具有巨大的商业价值。这些数据可能来自行业领先企业、政府机构或研究机构,这些企业或机构通常不愿意将数据分享给外部机构或个人,即使愿意分享数据,通常会进行脱敏处理以保护隐私和商业机密。数据清洗需要专业的技术和人力投入,教育机构需要花费数月甚至数年的时间来与企业协商、获取数据、进行数据清洗和数据处理等工作。此外,产生大数据的行业与教育机构之间的合作不够紧密,导致行业内的实践经验和案例资源无法有效传递到教育领域。目前大数据案例资源的共享机制还不完善,在没有脱敏或授权的情况下,许多优质的案例资源无法被充分利用和传播。这导致教学对案例的需求量远大于高校实际能够提供的案例资源。

2 数字化案例资源建设方案

数字化案例资源在教学、科研和实际应用中发挥着至关重要的作用。作为新兴的学科交叉型专业,大数据相关专业的人才培养对专业核心课程的教学案例库的需求激增。构建一套内容丰富、形式多样并且具有系列化应用教学内容的数字化案例资源库,已成为国内高校的迫切需求。“教学案例库”是规范案例开发和案例教学的理论工具,有助于实现人才培养中理论素养与实践能力双提升的目标。

笔者团队与国家级数据中心之一的健康科学数据中心合作,该中心目前已汇聚我国超过1 PB的医药卫生和人口健康数据资源。基于数据中心真实的大数据资源和应用场景,笔者团队构建了面向大数据专业核心课程的教学案例库。案例库资源存储在数据中心,将面向全国高校开放共享。

2.1 建设内容

6f2f0f693b3d467bb4a24399b0dcba1d.jpeg 案例库体系结构设计。采用高校与国家级数据中心合作的模式,利用国家级数据中心数据种类多样、各层级数据齐全、数据量巨大、具有先进的资源共享平台的优势,在充分调研大数据专业核心课程案例实际需求的基础上,设计动态分层的大数据专业核心课程案例库体系结构,开展从数据采集汇交、预处理、标准化、数据存储、数据挖掘到可视化输出全过程的大数据专业核心课程数字化案例库建设。

81ec86d860617441ff1b068de29637d4.jpeg 案例数字化处理。对收集到的案例资源进行数字化处理,包括文本整理、图片扫描、音频视频转码等,确保案例资源的清晰度和可读性。同时,对案例资源进行元数据标注,包括作者、来源、关键词、分类等,以便后续的检索和使用。

419be3caf1f9b638210b1689ca821106.jpeg 案例资源分类。根据案例资源的学科领域、应用场景、数据类型等,对案例资源进行详细的分类和整理。分类体系应清晰明了,以便用户快速定位所需案例资源。

2.2 案例设计与构建

(1)大数据专业核心课程案例库建设需求调研

本课题开展大数据专业核心课程案例库建设需求调研,研究国内外高校大数据人才培养方案,梳理并分析国内外高校大数据专业案例库建设现状和实际需求。在充分调研和分析的基础上,合理规划大数据专业课程案例库的体系结构、模块设计、数字案例建设方案,以技术发展调整教学内容,更新人才知识体系。

首先,全面了解国内外高校大数据专业案例库建设的现状和发展趋势。笔者通过查阅国内外相关文献、参与教学研讨会、实地考察等方式,了解不同高校大数据专业案例库的建设规模、数据覆盖领域等。

其次,分析大数据专业案例库建设的需求和痛点,选择具有代表性的高校,进行多种形式的线上线下调研,通过座谈、访谈和问卷调查等方式了解大数据专业的人才培养方案,课程设置、教学内容和案例库在其中的作用与地位,大数据专业案例库建设的实际情况和师生使用意见反馈。

最后,梳理大数据专业核心课程案例库建设的具体需求,包括案例类型、数量、难度等级、更新机制等。结合技术发展趋势和市场需求,规划大数据专业课程案例库的体系结构、模块设计和数字案例建设方案。

(2)动态分层的大数据专业核心课程数字化案例库体系结构设计

在深入调研、分析并梳理现状与需求的基础上,提出分层设计、动态扩展的大数据课程数字化案例库的体系结构及各层次的案例模块,指导大数据专业的课程建设和实践教学,实现学生实践能力的进阶。

围绕大数据从产生到应用的完整流程,大数据案例库可分为5个层次,即大数据获取、大数据集成与存储管理、大数据智能分析与挖掘、大数据可视化、大数据应用。可将每个层次的相关原理、主要技术与方法作为案例模块,并为案例模块设置对应的主题。

大数据专业核心课程数字化案例库体系结构如图1所示。

体系结构设计:根据大数据专业的课程体系和教学目标,数字化案例库涵盖基础理论、数据分析、数据挖掘和机器学习等,案例内容全面覆盖数据预处理(包括数据清洗、数据转换、数据集成等)、数据分析(涵盖统计分析、数据挖掘、机器学习、深度学习等分析方法和技术)和数据可视化(应用最新可视化技术以直观、易懂的方式将分析结果呈现给用户),以满足不同课程和不同学习阶段的需求。

案例模块设计:根据案例库体系结构,注重数字案例对知识内容覆盖的全面性、丰富性和多样性,每个案例均包含完整的数据集、分析步骤、结果展示和讨论部分。学生能够全面了解案例的背景、分析方法或算法,进而达成每一个模块的实践能力目标。

案例共享与更新机制设计:与数据中心保持合作,在保证访问与操作速度等的同时,设计好案例库的兼容性和可扩展性,以便在未来能够方便地添加新的案例资源。同时,定期向相关伦理委员会申请审核,保障数据隐私、安全、伦理,遵守相关法律法规。确保案例库中的案例能够紧跟技术发展和需求变化,形成数字化案例库的良性循环和合法合规扩展。

(3)基于真实数据资源的大数据核心课程数字化案例库建设

基于数据中心的大数据资源和互联网数据资源,为每个模块的课程建立一个或多个大数据数字化案例。同时,为不同应用场景设计涵盖大数据分析处理5个层次的综合性案例。

基于案例库的5个层次,为案例模块设置对应的主题。例如,在大数据智能分析与挖掘层次,可设计分类、聚类、回归、关联规则等主题,帮助学生掌握重要的大数据建模方法。

数字化案例的设计与构建,以课程体系建设需求调研为基础进行深入研究,设置综合性大型案例和分模块小型案例两条学习路径,实现综合知识学习和单元知识学习的培养目标。以小型案例“糖尿病患者并发症预测”为例,对案例中糖尿病患者的数据进行数据分析、模型构建与评估。聚类模块要求学生采用K均值聚类算法对患者的健康特征进行聚类分析,并将患者分为高风险、中风险、低风险3类。关联规则模块要求学生采用关联分析算法进行关联规则挖掘,结合药物组合规律,发现糖尿病患并发症与常用药物之间的关联关系。

50dffb5854e45b286303e3a831738076.jpeg

3 数字化案例融入实践教学的方式探究

3.1 教学设计与教学实施

学生通过课堂/实验教学和师生讨论、数据中心实习实训、参与行业及创业大赛和教师科研项目等多种方式,掌握大数据分析方法。课程教学中强调双师制,数据中心的校外导师带来真实数据,结合“走出去”和“请进来”帮助学生实现内化性学习,实现了直面真数据、解决真问题、形成真能力的教学目标。多形态教学包括线上学习、线下学习及课外活动,形成了高效的教学逻辑闭环,如图2所示。线上学习采用在线视频学习和案例实验分组讨论等形式,引导学生进行主动思考与探究,学生通过听、练和研讨把握主干知识。线下学习采用翻转课堂与生评生讲等形式,学生可自由发挥,在研讨中进行思维碰撞,从而发现案例的核心问题。

4426d6a39d875b3f834661048b4c3edf.jpeg

图2   教学逻辑闭环

课外活动包含名师课堂和专业实习等多种活动,通过实操拓展学生的专业认知。此外,高水平创新创业大赛和科研活动,提升了学生的创新和创业能力。

3.2 成绩评定设计

如图3所示,本文构建了双层考核体系,总成绩由过程性评价(对考勤、线上测试、小组作业生评生讲、小组辩论反思与汇报、课堂表现等的评价)和终结性考核组成,各层指标的权重经十年实践打磨,充分实现了“累加过程式考核”。

a7f213b68da3009e7783da3047fedf6a.jpeg

图3   成绩评定设计

如图4所示,围绕每个章节的能力目标设定标志性成果,学生按照目标要求循序渐进地完成相应的学与练,终结性考核的形式为“大数据分析报告与汇报”。

100c3ba101b6b74a0ff4573ade0858b2.jpeg

图4   教学目标的标志性成果考核

将真实场景融入教学中,实现了实景(真实案例大数据)-实务(数据分析与挖掘各阶段任务的综合知识)-实力(专业技能、方法能力与社会能力)并重的实践教学,实现了实际教学从探究式教学、基于项目的教学、基于问题的教学模式向开放式、翻转课堂、双师协同教学模式的转变。

4 数字化案例教学应用

4.1 确定教学应用案例

在确定教学应用案例时,教师应确保学生充分掌握理论背景与基础知识,能够将所学知识应用于实际场景中;聚焦于大数据分析与挖掘的综合性实践,使学生熟练掌握从数据导入与预处理、模型构建与评估、特征选择与参数调优,到结果可视化与模型评价的全流程数据处理过程。学生需要熟悉Python编程环境和语言,以及Python数据分析和机器学习库等相关知识。

基于国家级数据中心的“心脑血管高风险人群调查”大数据,笔者为“大数据管理与应用”专业的核心课程“大数据智能分析理论与方法”构建了“心脑血管高风险人群调查数据的分析与预警”数字化案例。学生通过对此案例的深入研究与实践,能够在学术和实践层面深入理解和运用大数据分析的基本方法和技术。

4.2 案例内容与实验要求讲解

(1)教师阐述案例数据组成和特定的应用场景。“心脑血管高风险人群调查数据的分析与预警”案例的数据来自“心脑血管高风险人群调查”大数据,分为基本信息数据集和健康信息数据集,每个数据集由数据字典表和数据表组成。数据字典示例见表1。

表1   心脑血管高风险人群健康信息(部分)

22204bd03d80c3ab50cfdb75d777f768.jpeg

(2)教师明确实验要求。心脑血管病风险分析与预警综合案例的步骤如下。

a2b187d6b296aae11f9dd4370658f671.jpeg 数据清洗:相较于传统数据,本案例中的数据含有大量噪声和异常值。为确保数据在后续分析中的准确性和可靠性,要设计更复杂的预处理策略,不仅包括数据类型转换,还涉及对缺失值、异常值和重复值的处理。

31bde24148aaf027cfdb44f9d2e1b3a1.jpeg 数据脱敏:本案例中的数据来自高危人群大数据,其数据安全和隐私保护至关重要。因此,在预处理中需要对数据进行脱敏或加密处理,主要包括数据替换、数据遮挡、偏移和数据取整等方法,以确保敏感信息在分析和共享过程中不被泄露。

5a48eeedeaea1f4682c1cf1ebd9f3462.jpeg 数据集成、规约与变换:进行特定分析时,需将案例中不同来源的数据集成并规约,将部分字段处理为合适的形式,并进行数据的标准化处理以及特征提取。这些步骤对于应对案例大数据的多样性与复杂性非常重要,确保了数据在分析和决策支持中被高效应用。

004242d8a06a765cc091d40636467434.jpeg 数据描述性统计分析:结合案例需求,采用多种数据可视化技术对心脑血管数据开展多维度的描述性统计分析,以便深入了解案例数据中高危风险因素的内在特征和模式,全面理解案例数据的分布状况和统计属性。

202285022019adabbb8779cb879a57aa.jpeg 回归分析模型:针对案例数据,构建多种回归分析预测模型,旨在实现心脑血管病风险的准确预警。除了传统的线性回归,回归分析预测模型还包括岭回归、Lasso回归和弹性网络回归等模型,进一步采用模型优化技术(如梯度下降、超参数优化等)来提高模型的预测准确性和泛化能力。此外,考虑到大数据的规模和维度,本案例还强调预测模型的计算效率和可扩展性,确保了在处理大规模数据集时的可行性和稳定性。

ce5fd43bcafe58b82f1bbb26ba9d95f7.jpeg 模型评估及优化:采用不同的评价指标对构建的模型进行评估。在此基础上,对不同模型采用超参数调优、特征工程、数据增强及模型融合等多种策略进行优化,进一步提高模型的预测准确率和性能。

4.3 上机实验与思考

学生分组进行上机实践,通过实际操作加深学生对大数据分析与挖掘技术的理解和应用。在实验中,学生在完成预先设定的基本实验操作后,还要根据案例中数据的特征,设计方案进一步处理和分析数据,以扩充和深化所学知识。层次化的实践方案旨在培养学生的自主探究学习能力,使其主动探索新的知识点,拓展自己的知识面。通过这一过程,学生学会独立思考和解决问题,并不断积累经验和提升能力。教师仔细审阅学生提交的实验报告,指出实验报告的优缺点,并给出具体的建议和指导。图5为学生分析得到的心脑血管患病风险(危险分层)与其他特征因素的相关性热图。图6为学生针对心脑血管数据构建XGBoost模型得到的部分特征重要性分析结果。

e0ced143981b0e781ce1351ebce4b09e.jpeg

图5   心脑血管患病风险(危险分层)与其他特征因素的相关性热图

8e4c979a0e88eeaff85c0bfec3a95270.jpeg

图6   部分特征重要性分析结果

“心脑血管高风险人群调查数据的分析与预警”数字化案例能够指导学生应用大数据分析与挖掘技术对健康大数据进行全流程处理和分析。学生能够学习如何构建预测模型,如何通过算法选择、参数调整等方法优化模型的性能,以及如何分析结果并将其可视化。这一连贯、体系化的学习路径为学生提供了一个全面的视角,使其充分掌握大数据相关技术完整化、体系化的知识网络。

5 结束语

随着大数据时代的到来,数据的价值和复用率不断提升,逐步形成数据开放共享的社会态势。本文研究在重构教学内容基础上,以大数据分析流程为线索,以系统化案例资源为引领,确保知识点设置清晰明了,与课程讲授知识点及实践拓展同步。在案例资源建设上,以大数据技术实际应用为切入点,兼顾数据分析全过程相应技术的应用。来自真实场景的大数据案例,帮助学生深入且客观地理解大数据分析方法,为应对实际挑战做好准备。数字化案例资源建设将面向全国高校开放共享,为同类专业课程提供强大的课程资源。在数字化案例资源的驱动下,专业培养与行业人才需求紧密结合,将提升大数据专业学生的理论素养和实践能力。由此可见,本文构建的多元融合的教学实施路径具有较强的实用性和较高的推广价值。

作者简介

彭岩,女,博士,首都师范大学管理学院教授,主要研究方向为大数据分析与挖掘、机器学习等。

王洁,女,博士,首都师范大学管理学院教授,主要研究方向为社交网络分析、数据挖掘等。

联系我们:

Tel:010-53879208

       010-53859533

E-mail:[email protected] 

http://www.j-bigdataresearch.com.cn/

转载、合作:010-53878078

大数据期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

e88572307e92757668b85c3a04c4ac6e.jpeg

关注《大数据》期刊微信公众号,获取更多内容

;