大数据是什么?
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据未来发展的趋势?
数据资源化:资源化是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。
与云计算的深度结合:大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一
科学理论的突破:随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新─轮的技术革命。
数据科学与数据联盟的成立:未来,数据科学将成为一门专门的学科,被越来越多的人所认知
数据泄露之滥
数据挖掘是什么?
数据挖掘是指从大量数据中通过算法搜索隐藏于其中信息的过程
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘的特点
基于大量数据:小型数据可以人工分析总结规律,小数据量无法反应真实世界普遍特性
非平凡性:数据挖掘要发现深藏数据内部的知识,而不是直接浮
隐含性:数据挖掘要发现深藏数据内部的知识,而不是直接浮现在数据表面的知识
新奇性:挖掘的知识在以前是未知的,否则只是验证了经验
价值性:可以为企业带来直接间接的效益
数据挖掘步骤
1定义问题
2建立数据挖掘库
3分析数据
4准备数据
5建立模型
6评价模型和分析
数据挖掘经典算法
神经网络法
模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,它将每一个连接看作一个处理单元,试图模拟人脑神经元的功能,可完成分类、聚类、特征挖掘等多种数据挖掘任务
决策树法
决策树是根据对目标变量产生效用的不同而建构分类的规则,通过一系列的规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。比如,在贷款申请中,要对申请的风险大小做出判断。
遗传算法
遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。
粗糙集法
粗糙集法也称粗糙集理论,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。
模糊集法
模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高,模糊性就越强
关联规则法
关联规则反映了事物之间的相互依赖性或关联性。
数据仓库
从大量的事务型数据库中 提取数据,并清洗、转换为新的存储格式,即根据决策目标把数据聚集在一种特殊的格式中,这种支持决策的、特殊的数据存储称为数据仓库。
数据仓库的建立决策支持系统的基础。可以采用两层结构,也可以采用三层结构,就是在客户机/服务器模式的基础上,在中间加一个OLAP服务器,这个服务器作为应用服务器,执行数据过滤、聚集。
数据仓库的特点
1. 主题性
数据仓库是一般从用户实际需求出发,将不同平台的数据源按设定主题进行划分整合,与传统的面向事务的操作型数据库不同,具有较高的抽象性。面向主题的数据组织方式,就是在较高层次对分析对象数据的一个完整、统一并一致的描述,能完整及统一地刻画各个分析对象所涉及的有关企业的各项数据,以及数据之间的联系。
2.集成性
数据仓库中存储的数据大部分来源于传统的数据库,但并不是将原有数据简单的直接导入,而是需要进行预处理。这是因为事务型数据中的数据一般都是有噪声的、不完整的和数据形式不统一的。这些“脏数据”的直接导入将对在数据仓库基础上进行的数据挖掘造成混乱。“脏数据”在进入数据仓库之前必须经过抽取、清洗、转换才能生成从面向事务转而面向主题的数据集合。数据集成是数据仓库建设中最重要,也是最为复杂的一步。
3.稳定性
数据仓库中的数据主要为决策者分析提供数据依据。决策依据的数据是不允许进行修改的。即数据保存到数据仓库后,用户仅能通过分析工具进行查询和分析,而不能修改。数据的更新升级主要都在数据集成环节完成,过期的数据将在数据仓库中直接筛除。
4.动态性
数据仓库数据会随时间变化而定期更新,不可更新是针对应用而言,即用户分析处理时不更新数据。每隔一段固定的时间间隔后,抽取运行数据库系统中产生的数据,转换后集成到数据仓库中。随着时间的变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求。当数据超过数据仓库的存储期限,或对分析无用时,从数据仓库中删除这些数据。关于数据仓库的结构和维护信息保存在数据仓库的元数据(Metadata)中,数据仓库维护工作由系统根据其中的定义自动进行或由系统管理员定期维护。
什么是元数据?
元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分成两类,即技术元数据和业务元数据。
技术元数据:数据仓库设计和管理人员用于开发和日常管理数据仓库时用的数据,包括数据源信息、数据转换的描述等等。
业务元数据是从单位业务的角度描述数据仓库中的数据,包括业务主题的描述、包含的数据、查询、报表等信息。
数据仓库和数据挖掘的关系
区别:
1、目的不同:
数据仓库是为了支持复杂的分析和决策。
数据挖掘是为了在海量的数据里面发掘出预测性的、分析性的信息,多用来预测。
2、阶段不同:
数据仓库是数据挖掘的先期步骤,通过数据仓库的构建,提高了数据挖掘的效率和能力,保证了数据挖掘中的数据的宽广性和完整性。
3、处理方式不同:
数据挖掘是基于数据仓库和多维数据库中的数据,找到数据的潜在模式进行预测,它可以对数据进行复杂处理。大多数情况下,数据挖掘是让数据从数据仓库到数据挖掘数据库中。
联系:
1、数据仓库是为了数据挖掘做预准备,数据挖掘可建立在数据仓库之上。
2、最终目的都为了提升企业的信息化竞争能力。
描述实时数据库
实时数据库是采用实时数据模型建立起来的数据库,用于处理不断更新的快速变化的数据及具有时间限制的事务处理。实时数据库技术是实时系统和数据库技术相结合的产物,利用数据库技术来解决实时系统中的数据管理问题,同时利用实时技术为实时数据库提供时间驱动调和资源分配算法。主要应用于工业监控,如:电力、石化、化工、钢铁、冶金、造纸、交通控制和证券金融等工业领域的监控。
时间约束:实时数据库是其数据和事务都有明确的时间限制的数据库。在实时系统中,具有时间约束的数据主要是来自于外部的动态数据,以及由这些数据求导出的新的数据。数据库中的数据必须如实反映现场设备的运行情况。
事务调度:实时数据库系统的正确性不仅依赖于事务的逻辑结果,而且依赖于该逻辑结果所产生的时间。事务调度既要考虑事务的执行时间,也要考虑事务的截止期、紧迫程度等因素。
数据存储:实时数据库主要承担系统所有实时数据的存储和管理,为相关的功能提供快速、正确的实时信息。为了达到实时性,实时数据库在系统运行过程中,应常驻内存,以保证读取速度。对于实时性要求不高的数据可存放在外存储空间。因此,在实时数据库设计时,要妥善处理时间与存储空间的矛盾,以保证系统的实时性。
数据在线压缩:在实际的数据存储中,实时数据库还要解决如何高效处理海量数据的问题。如果数据被原封不动地存储势必需要大量内存和磁盘空间以及耗费大量的时间,因此必须对实时数据进行在线压缩存储。
什么是云计算?
狭义上讲,云计算就是一种提供资源的网络,从广义上说,云计算是与信息技术、软件、互联网相关的一种服务,这种计算资源共享池叫做"云",云计算把许多计算资源集合起来,通过软件实现自动化管理,只需要很少的人参与,就能让资源被快速提供。
人工智能?
人工智能(Artificial Intelligence),英文缩写为Al。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科。
弱人工智能时代
弱人工智能观点认为不可能制造出能真正地推理( REASONING)和解决问题(PROBLEM_ SOLVING)的智能机器,这些机器只不过看起来像 是智能的,但是并不真正拥有智能,也不会有自主意 识。主流科研集中在弱人工智能上,并且一般认为这 一研究领域已经取得可观的成就。强人工智能的研究 则处于停滞不前的状态下。
强人工智能时代
区块链
区块链起源于比特币,是一个信息技术领域的术语。 从本质上讲,它是一个共享数据库,存储于其中的数 据或信息,具有“不可伪造”“全程留痕”“可以追溯”“公 开透明”“集体维护”等特征。基于这些特征,区块链 技术奠定了坚实的“信任“基础,创造了可靠的“合作” 机制,具有广阔的运用前景。