记录自《物联网概论》
一、数据中心与大数据
1.1数据中心分类
企业数据中心enterprise(EBC)
互联网数据中心internet(IBC)
1.2数据中心等级
依据可用性、稳定性、安全性
- Tier1----基本数据中心
- Tier2----基础设施部件冗余
- Tier3----基础设施同时可维修
- Tier4----基础设施故障容错
1.3大数据的分析与处理
传统的方法:
- 聚类分析。相似数据分为一类
- 因子分析。利用几个因素反映原数据的大部分西信息
- 相关分析
- 回归分析
- 深度学习
大数据的方法:
- 散列法
- 布隆过滤器
- 索引
- 字典树
- 并行计算
常见大数据处理形式
- 静态数据
- 在线数据
- 图数据
归纳为下面四种形式:
- 批量数据处理系统
- 流式数据处理系统
- 交互式数据处理系统
- 图数据处理系统
二、数据库系统
2.1数据库类型
数据模型使数据库的核心和基础。物联网中的数据具有时效性,采用分布式实时数据库技术势在必行。此数据最大特点在于,事务和数据都有时限性。一旦超过规定时间,数据就失去了价值。
2.2数据库操作
- 桌面类数据库:access,foxpro
- 客户机/服务器类:sql server,oracle,postgres和sysbase
2.3 数据库与物联网
nosql 自定义数据格式,应对巨大数据快速存储、共享、分析和检索
高扩展,读写性能好,低成本
类型:
- 键值存储系统:每个数据存储一个key作为索引,与之相关的其他数据统统存如value值中。不关系数据内容照单全收,可扩展性高,依赖key进行快速查询
- 列存储系统:传统为行存储,每行有不同的字段属性值,字段需提前定义好。而行存储以属性为核心,同属性数据聚合。大数据存储中只关心少数字段,存储效率更高,支持动态扩展
- 文档存储系统:键值型与关系型的平衡。数据由键值对存储,值存储为json格式。文档格式自定义,比关系型数据库更好扩展。
- 图数据库系统:图结构(边和点)和属性来表示和存储数据。对图数据处理效率相比传统而言,提高很多。
三、数据挖掘
3.1数据挖掘过程
1)数据处理
- 数据准备
- 数据选取
- 数据预处理
- 数据变换
2)数据挖掘
- 选择算法。选择算法、模型和参数,如分类决策树算法、聚类算法、最大期望算法和pageRank算法。
- 数据挖掘。,运用算法,提取用户感兴趣的知识并展现出来,这是算法的核心。
3)知识评估与表示
经过评估,去除冗余的无关的模式。如不满足客户需要,需要返回前面的步骤反复提取,重新选择数据,变换规则。另外,还需要可视化结果
3.2 数据挖掘方法
- 统计分析方法:个属性统计分析,找出关系
- 决策树:采用树形结构展现数据受各变量影响情况的分析预测模型,建立在信息论基础上,对数据进行分析。通过一批已知数据进行训练得出一个决策树,并基于此随数据进行预测。
- 神经网络:模拟人脑思考结构的数据分析模型,从输入值中,获取知识,不断调整参数,从而得出结果。可对大量复杂数据进行数据分析。完成极为复杂的模式抽取和趋势分析。
- 遗传算法:模拟生物进化过程的智能算法,模拟物竞天择适者生存的法则,最终进行问题搜索。
- 粗糙集:将知识理解为对数据的划分。每一被划分的集合称为概念。利用已知知识库,将不确定和不精确的知识利用已知知识库进行近似刻画处理
- 联机分析处理技术:用具体图形将信息模式、数据关联趋势呈现给决策者,使用户交互的分析数据的关系。
3.3 物联网中的数据挖掘
1)异构数据处理
海量多源异构数据挖掘
2)分布式数据挖掘
中央模式不可行。
分布式数据挖掘=分布式计算处理+数据挖掘
集中式。数据集于中心,分布发送给个节点进行处理。只适合数据量少。
局部式。全局控制节点,多点辅助节点。全局是核心,选择数据挖掘算法和处理集合。辅助接点从智能对象中接收数据,进行预处理并保存。辅助接点间互相交换对象数据,处理数据和信息。辅助接点受控于全局节点,并将预处理后的信息交与全局节点进一步处理。