Bootstrap

《大数据》2025年第1期目次&摘要

2e69db315161ab7656194cb405828c74.png

点击上方蓝字关注我们

f74133083e4dbb9a04955409cc222123.png

图片

《大数据》

第11卷第1期 2025年1月

大数据2025年第1期

(点击原文链接在官网阅读完整文章)

目次

01 数界先声,十载华章

  • 郑纬民

02 面向人工智能的数据治理框架

  • 李继峰, 张成龙, 刘鑫, 陈劲宇, 张津铭, 毕超

03 基于图的异构数据集成方法研究

黄跃珍, 杨芬, 田丰, 张承业, 李雨婵

04 AIGC独创性标准的构建

李祎恒, 张峥

05 数字时代经管类大数据分析课程教改研究——以“Python经济金融大数据分析”为例

吕一清, 吴云峰

06 面向大数据专业人才培养的数字化案例资源构建

彭岩, 王洁

07 基于华为MRS平台的大数据实践课程探索

辛宇, 李国庆, 钱江波, 严迪群

08 大模型时代下的存储系统挑战与技术发展

冯杨洋, 汪庆, 舒继武

09 面向互联网数据互操作的授权技术综述

李颖, 李晓东, 费子郁, 彭博韬

10 沙尘图像视觉增强技术综述

司亚中, 张旭龙, 杨帆, 王健宗, 程宁, 肖京

11‍ 基于时间序列的非周期预测模型

曹建文, 委兴宝, 杨裔, 李彩虹, 赵文清

12 基于云边多数仓架构和代价预测模型的查询调度

高叙宁, 杨松, 李明哲, 张岩峰

13 生成式人工智能的算法伦理难点分析与探索

施敏, 杨海军

14 图模融合:人工智能系统事实表达和逻辑推理增强

杨娟, 沈游人

15 数据要素市场与数据产品市场

叶雅珍,朱扬勇

摘要

主编寄语

数界先声,十载华章

作者:郑纬民

摘要:在这个数据如织、智能涌动的时代,我们迎来了《大数据》期刊创刊十周年的辉煌时刻。作为期刊的主编,我深感荣幸与责任重大,能够在这一数据洪流中,引领并见证《大数据》期刊的成长与蜕变。十年间,《大数据》期刊如同一位矢志不渝的探索者,走过了一段不平凡的发展历程。从初创时的青涩,到如今的成熟稳健,《大数据》始终坚守着“以开放、创新姿态,推动大数据技术的研究与应用,促进技术交流,推广创新成果,服务大数据社会”的初心,致力于为广大读者提供全面、深入的大数据领域知识与技术趋势。如今,《大数据》已成功入选中国科技核心期刊、计算领域和信息通信领域高质量科技期刊分级目录,加入CCF会刊且连续多年被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊,是为数不多的被自然科学和社会科学两个方向均认可的期刊之一,交叉性、引领性凸显。《大数据》已不仅仅是一本学术期刊,更成为大数据领域的一面旗帜,赢得了业界的广泛认可与尊重。

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/81059118/

专栏:人工智能数据治理

面向人工智能的数据治理框架

作者:李继峰, 张成龙, 刘鑫, 陈劲宇, 张津铭, 毕超

摘要:数据对人工智能的开发应用具有至关重要的作用,这已成为工业界和学术界的共识。基于人工智能与数据的互动关系,以及以数据为中心的开发实践,提出面向人工智能的数据治理框架,包含源数据治理、预训练数据治理、评测数据治理、微调数据治理、推理数据治理和运维数据治理6个方面,每个方面都有其重点任务和技术。同时,深入分析ChatGPT、Ziya2和能源领域部分人工智能模型的数据治理案例和成功经验,以验证该框架的有效性。结果表明,该框架在提高人工智能模型性能、优化数据管理流程等方面具有积极作用,对面向人工智能的数据治理的理论和技术创新具有参考价值。

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/doi/10.11959/j.issn.2096-0271.2025004/

基于图的异构数据集成方法研究

作者:黄跃珍, 杨芬, 田丰, 张承业, 李雨婵

摘要:企业各部门对数据施行分散管理,烟囱式的系统建设使数据散落在异构数据库中,异构数据给当前数据集成工作带来了系列挑战。为解决企业异构系统数据汇聚融合的问题,提出一种基于图的端到端的数据集成框架。首先,根据关系型数据模型的主外键关系将表和字段的实体关系构建成网络图,将表名和字段名称分别看作图中不同类型的实体。然后,将构建的图输入图神经网络,经过图卷积得到图中各节点的向量表征,基于节点向量可计算任意所需匹配的两个图的节点映射关系。完成图中表和字段的对齐后,再将不同字段值标准化,即将每个单元格的值映射为标准值。最后,将以上结果工程化为数据库可执行的查询语句,从而实现异构数据融合。在企业内部的真实数据上进行验证,实验结果表明,文中所提框架能提高数据集成的开发效率,且该模型不受业务领域限制,具有较强的移植性。

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/doi/10.11959/j.issn.2096-0271.2025002/

AIGC独创性标准的构建

作者:李祎恒, 张峥

摘要:随着生成式人工智能技术的普及,AIGC著作权的问题凸显。传统“工具论”和“贡献论”下的独创性标准适用于AIGC时尤显不足,必须构建更具可操作性的独创性标准。通过对著作权法的立法价值进行分析和对现行法律的规范进行研究,结合国内外司法案例的实证研究,提出“决定论”下独创性标准的构建。应当立足人类中心主义,坚持著作权主体的唯一性,将劳动投入作为权利基础,并引入英美法系因果关系理论,将人类对作品的呈现结果决定和创作过程控制作为充分必要条件。由此,“决定论”在对象、标准、法律、事实、因果关系上是自洽的,并能指导实践。

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/doi/10.11959/j.issn.2096-0271.2025003/

专栏:大数据与人工智能教育

数字时代经管类大数据分析课程教改研究——以“Python经济金融大数据分析”为例

作者:吕一清, 吴云峰

摘要:数字时代下经管类分析课程需要进行与时代相适应的教学改革,特别是将Python编程与大数据分析等新兴技术融入课程体系。通过对“Python经济金融大数据分析”课程的教学研究,发现现有课程存在内容过于理论化、考核方式单一化、缺乏对学生综合应用能力的培养等问题。为此进行了系列改革,如课程内容的更新与优化、教学方法的创新等。通过改革前后的问卷调查与考核对比发现,这些措施的实施有效提升了学生的编程能力和解决实际问题的能力。该教改方案对数字时代下相关课程改革具有参考意义。

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/doi/10.11959/j.issn.2096-0271.2025005/

面向大数据专业人才培养的数字化案例资源构建

作者:彭岩, 王洁

摘要:随着大数据产业的蓬勃发展,大数据相关专业的教育受到广泛关注。然而,实践教学与真实应用场景的分离成为大数据专业人才培养的一大挑战。为了解决这一问题,探讨了大数据专业核心课程数字化案例库的建设及其融入实践教学的创新方法,提出了构建系统化、系列化的数据资源案例库的路径。案例库构建采用动态分层设计,完整呈现大数据处理流程,支持动态扩展,旨在有效进行大数据相关专业的实践课程建设和实践教学,为大数据专业人才实践能力培养赋能。以高风险人口心脑血管疾病数字化案例为例,阐述了案例资源与理论教学融合的课程模式与课程实施过程。通过与国家级数据中心的合作,实现实践教学与真实应用场景的紧密结合。案例资源的建设将提升大数据专业学生的理论素养和实践能力。

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/doi/10.11959/j.issn.2096-0271.2025007/

基于华为MRS平台的大数据实践课程探索

作者:辛宇, 李国庆, 钱江波, 严迪群

摘要:针对大数据实践教学中存在的大数据集群环境搭建、环境管理、组件兼容与硬件维护等教学难题,以华为MRS大数据平台为实践教学平台进行课程探索。论述了MRS大数据平台教学的优势,提出了“学、练、践、思”的改革思路,即理论教学、实验教学、综合实践、课程评价,并从知识体系、实验教学、综合实践任务、课程考核方式等方面介绍了教学改革的实施过程。该课程已在华为“智能基座”产教融合协同育人基地开展示范教学,有效提高了学生在大数据技术方面的自主研发能力与创新思维能力。 

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/doi/10.11959/j.issn.2096-0271.2025006/

研究

大模型时代下的存储系统挑战与技术发展 

作者:冯杨洋, 汪庆, 舒继武

摘要:大语言模型(简称大模型)在文本和视觉处理等复杂任务中表现出色,受到工业界和学术界的广泛关注。大模型的训练与推理高度依赖于GPU算力,而GPU的显存容量有限且属于易失性存储介质,难以满足大模型在训练和推理过程中的存储需求。深入分析了大模型时代下存储系统面临的挑战:一是大模型的数据呈现高度碎片化特征,且大模型数据语义稀疏化显著,这降低了存储系统的利用率;二是大模型训练与推理对数据的读写带宽需求高,但异构存储介质间的数据传输通信开销大,这增加了利用异构存储介质扩展GPU显存的难度;三是大模型训练过程中的容错需求高,但直接使用以CPU为中心的容错技术会带来高昂的开销。针对上述挑战,从数据管理、存储扩容和数据容错3个方面总结了现有的解决方案。最后,展望了未来大模型时代存储系统的发展趋势。

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/doi/10.11959/j.issn.2096-0271.2025001/

面向互联网数据互操作的授权技术综述

作者:李颖, 李晓东, 费子郁, 彭博韬

摘要:互联网数据互操作可实现数据跨域互联和交换,其中授权是保障数据权属和安全的关键技术之一。数据跨域流通的复杂性对授权技术提出了更高的可用和可信要求,亟须面向互联网数据互操作展开授权技术研究。首先,简述授权技术的基础概念和知识,分析互联网数据互操作对授权提出的技术要求;其次,从信任机制、权限模型、策略管理3个方面分析现有授权技术能力;最后,针对现有授权技术能力的不足,提出一些潜在的研究问题,旨在为后续研究提供思路和参考。

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/doi/10.11959/j.issn.2096-0271.2025008/

沙尘图像视觉增强技术综述

作者:司亚中, 张旭龙, 杨帆, 王健宗, 程宁, 肖京

摘要:沙尘图像视觉增强技术旨在提高沙尘暴天气下成像设备捕获数据的视觉感知清晰度,以辅助高级视觉算法提高从数据中获取关键特征的能力。随着沙尘天气出现频次的增多,沙尘图像视觉增强技术逐渐成为图像处理领域的研究热点,在遥感勘测、无人驾驶、智慧交通等人工智能相关行业有着十分广泛的应用前景。为了更好地了解当前沙尘图像处理领域的研究进展,详细阐述了基于传统技术的沙尘图像增强算法和基于大气散射模型的沙尘图像复原算法,总结了基于数据驱动的沙尘图像重构算法,对当前公开数据集的构建进行了细致的研究和分析,并简单梳理了图像增强领域常用的评价指标。最后对所述内容做出总结,指出当前研究中存在的困难,并对未来沙尘图像增强技术的发展方向进行了展望。

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/doi/10.11959/j.issn.2096-0271.2025009/

基于时间序列的非周期预测模型

作者:曹建文, 委兴宝, 杨裔, 李彩虹, 赵文清

摘要:在实际应用中,纯周期性的数据相对罕见,大多数数据往往表现出非周期性特征,难以通过简单的周期性变化进行预测或描述。而单一神经网络在处理非周期性时间序列时往往面临过拟合、长时依赖捕获困难、非线性关系捕获有限等问题。为了有效地对非周期性时间序列进行预测,基于Informer模型提出了ILTNet模型。ILTNet模型结合线性预测(AR模型)和非线性预测(Informer模型与循环跳跃组件),能有效捕获长期依赖关系。实验证明,与LSTNet、Informer、AR以及GRU模型相比,ILTNet模型在非周期时间序列预测上表现出显著优势。例如,在Exchange Rate数据集上,ILNet模型相对于LSTNet模型,在步长为96和128时将RSE分别降低了0.0333和0.0277,相对于Informer模型在所有步长下,RSE均有显著降低,尤其是在步长为96时将RSE降低了0.2877。 

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/doi/10.11959/j.issn.2096-0271.2025010/

基于云边多数仓架构和代价预测模型的查询调度 

作者:高叙宁, 杨松, 李明哲, 张岩峰

摘要:随着云计算和大数据的发展,传统的本地数据仓库面临着扩容困难、数据处理效率低下的问题,由此云边架构的数据仓库应运而生。该架构的数据仓库分布在云中心和边缘端,使数据存储和处理更加灵活,在保证查询效率的前提下,为数据安全、数据隐私和跨地域数据共享等业务提供支持。设计基于云边多数仓的调度框架,集成以机器学习技术为核心的查询代价预测模型,实现了在多个查询粒度上的云边协同执行和云边择优执行,提高了系统的整体性能和查询效率。此外,提出了有利于查询代价信息增强的多特征融合和特征筛选方法。此调度框架和优化算法在SSB和TPC-DS数据集上均表现出显著的性能提升,为云边多数仓架构下的数据仓库查询调度提供了有效的解决方案。

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/doi/10.11959/j.issn.2096-0271.2025011/


论坛

生成式人工智能的算法伦理难点分析与探索

作者:施敏, 杨海军

摘要:自2022年下半年以来,生成式人工智能技术和产业快速发展。聚焦生成式人工智能技术所用的生成式算法,结合相关法规规范,提出“生成式算法三定律”伦理原则。结合其技术特点,对实践中存在的伦理难点开展分析,并初步探索并提出解决框架。

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/doi/10.11959/j.issn.2096-0271.2025013/

专栏:信息技术应用创新:系统与软件

图模融合:人工智能系统事实表达和逻辑推理增强

作者:杨娟, 沈游人

摘要:知识图谱通过图结构组织和表达实体关系,为机器理解和推理提供了基础,但推理能力受限于覆盖范围和人工规则。大模型展现了强大的语义理解和生成能力,但缺乏对符号知识的有效利用和可解释性。近年来,学术界和产业界致力于探索知识图谱与大模型的结合,以融合两者优势,构建更强大且可解释的人工智能系统。首先,梳理了知识图谱与大模型融合的研究现状,重点介绍了两种技术融合在事实表达和逻辑推理增强方面的主要研究成果,包括基于知识图谱的预训练语言模型、基于大模型的知识图谱表示学习以及二者融合的推理方法。然后,对产业界当前图模融合的主流技术路线和应用场景进行了介绍。最后,对图模融合未来的发展方向进行了展望,并且提出两者融合是人工智能的重要发展方向之一。

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/doi/10.11959/j.issn.2096-0271.2025014/

专家视点

数据要素市场与数据产品市场

作者:叶雅珍,朱扬勇

摘要:如何建立一个有效的数据要素市场是发展数据产业、数字经济的重要问题。经济学认为,要素市场和产品市场是市场体系的核心组成部分,是两大类不同的市场,二者相互依存,共同决定生产什么、如何生产、为谁生产的三大经济问题,要素市场是劳动力、土地、资本、技术等生产要素流通交易的场所;产品市场则是主要提供或销售最终产品或服务交换的场所,能满足最终消费者的直接需求。绝大部分实物商品交易能被清晰地划归到在要素市场交易或在产品市场交易。然而,一个数据商品既可以作为终端(消费)产品,也可以作为生产投入品,即一个数据商品既可以在产品市场交易,也可以在要素市场交易。因此,在推进数据要素市场建设的进程中,要充分考虑数据商品的特点,依照经济学规律统筹考虑数据产品市场和数据要素市场,既要建设数据要素市场,也要建设数据产品市场。

原文链接:https://www.j-bigdataresearch.com.cn/zh/article/doi/10.11959/j.issn.2096-0271.2025015/

联系我们:

Tel:010-53879208

       010-53878019

E-mail:[email protected] 

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

转载、合作:010-53878078

大数据期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

2e25d93579014089a47b20b43b90a322.jpeg

关注《大数据》期刊微信公众号,获取更多内容

;