Bootstrap

笔记---物联网的数据处理

记录自《物联网概论》

一、数据中心与大数据

1.1数据中心分类

企业数据中心enterprise(EBC)

互联网数据中心internet(IBC)

1.2数据中心等级

依据可用性、稳定性、安全性

  • Tier1----基本数据中心
  • Tier2----基础设施部件冗余
  • Tier3----基础设施同时可维修
  • Tier4----基础设施故障容错

1.3大数据的分析与处理

传统的方法:

  • 聚类分析。相似数据分为一类
  • 因子分析。利用几个因素反映原数据的大部分西信息
  • 相关分析
  • 回归分析
  • 深度学习

大数据的方法:

  • 散列法
  • 布隆过滤器
  • 索引
  • 字典树
  • 并行计算

常见大数据处理形式

  • 静态数据
  • 在线数据
  • 图数据

归纳为下面四种形式:

  • 批量数据处理系统
  • 流式数据处理系统
  • 交互式数据处理系统
  • 图数据处理系统

二、数据库系统

2.1数据库类型

数据模型使数据库的核心和基础。物联网中的数据具有时效性,采用分布式实时数据库技术势在必行。此数据最大特点在于,事务和数据都有时限性。一旦超过规定时间,数据就失去了价值。

2.2数据库操作

  • 桌面类数据库:access,foxpro
  • 客户机/服务器类:sql server,oracle,postgres和sysbase

2.3 数据库与物联网

nosql 自定义数据格式,应对巨大数据快速存储、共享、分析和检索

高扩展,读写性能好,低成本

类型:

  • 键值存储系统:每个数据存储一个key作为索引,与之相关的其他数据统统存如value值中。不关系数据内容照单全收,可扩展性高,依赖key进行快速查询
  • 列存储系统:传统为行存储,每行有不同的字段属性值,字段需提前定义好。而行存储以属性为核心,同属性数据聚合。大数据存储中只关心少数字段,存储效率更高,支持动态扩展
  • 文档存储系统:键值型与关系型的平衡。数据由键值对存储,值存储为json格式。文档格式自定义,比关系型数据库更好扩展。
  • 图数据库系统:图结构(边和点)和属性来表示和存储数据。对图数据处理效率相比传统而言,提高很多。

三、数据挖掘

3.1数据挖掘过程

1)数据处理

  • 数据准备
  • 数据选取
  • 数据预处理
  • 数据变换

2)数据挖掘

  • 选择算法。选择算法、模型和参数,如分类决策树算法、聚类算法、最大期望算法和pageRank算法。
  • 数据挖掘。,运用算法,提取用户感兴趣的知识并展现出来,这是算法的核心。

3)知识评估与表示

经过评估,去除冗余的无关的模式。如不满足客户需要,需要返回前面的步骤反复提取,重新选择数据,变换规则。另外,还需要可视化结果

3.2 数据挖掘方法

  • 统计分析方法:个属性统计分析,找出关系
  • 决策树:采用树形结构展现数据受各变量影响情况的分析预测模型,建立在信息论基础上,对数据进行分析。通过一批已知数据进行训练得出一个决策树,并基于此随数据进行预测。
  • 神经网络:模拟人脑思考结构的数据分析模型,从输入值中,获取知识,不断调整参数,从而得出结果。可对大量复杂数据进行数据分析。完成极为复杂的模式抽取和趋势分析。
  • 遗传算法:模拟生物进化过程的智能算法,模拟物竞天择适者生存的法则,最终进行问题搜索。
  • 粗糙集:将知识理解为对数据的划分。每一被划分的集合称为概念。利用已知知识库,将不确定和不精确的知识利用已知知识库进行近似刻画处理
  • 联机分析处理技术:用具体图形将信息模式、数据关联趋势呈现给决策者,使用户交互的分析数据的关系。

3.3 物联网中的数据挖掘

1)异构数据处理

海量多源异构数据挖掘

2)分布式数据挖掘

中央模式不可行。

分布式数据挖掘=分布式计算处理+数据挖掘

集中式。数据集于中心,分布发送给个节点进行处理。只适合数据量少。

局部式。全局控制节点,多点辅助节点。全局是核心,选择数据挖掘算法和处理集合。辅助接点从智能对象中接收数据,进行预处理并保存。辅助接点间互相交换对象数据,处理数据和信息。辅助接点受控于全局节点,并将预处理后的信息交与全局节点进一步处理。

;