阿里云大数据开发套件的使用,主要涉及到odps、ads、rds、ots相关数据库的操作,所以针对性的做一些总结,并将阿里云中产品与实际产品对应分析。
Maxcompute(原odps)
阿里云中的Maxcompute(原odps)其实就是hive,扮演数据仓库的角色,适合存储轨迹类历史数据,适合存储的数据量大,适合海量数据的处理,适合对数据进行离线分析,数据挖掘运算;OLAP不支持插入和删除等事务、事务性不强,实时性也较差。
RDS(云数据库)
阿里云中的RDS(云数据库)对应的实际产品是MySQL–RDBMS,所能处理的数据量不是很大,OLTP事务性较好,实时性较好,具有强一致性。
在业务系统中,通常使用OLTP(OnLine Transaction Processing,联机事务处理)系统,如MySQL,SQLServer等关系型数据库系统(RDBMS),这些数据库系统擅长事务处理,在数据操作中保持很强的一致性和原子性,能够很好的支持频繁的数据插入和修改,但是一旦需要计算的数据量过大,达到数千万甚至数十亿条,或者需要进行计算非常复杂的情况下,OLTP类数据库系统就力不从心了,所以在使用阿里云产品过程中,一般需要对海量数据进行计算处理时,我们选择的是odps,将结果表存储到RDS中。
数据库事务transaction正确执行的ACID原理
原子性(Atomicity):所有操作要么全部完成,要么全部不完成,不可能停滞在中间某个环节。事务在执行过程中发生错误,会被回滚(rollback)到事务开始前的状态。
一致性(Correspondence):在事务开始之前和结束之后,数据库的完整性约束未被破坏。
隔离性(Isolation):隔离状态执行任务,使它们好像在系统给定的时间内执行的唯一操作。如果两个事务运行在相同的时间,执行相同的功能,事务的隔离性,将确保每一事务在系统中认为只有该事务在使用系统。
持久性(Durability):在事务完成后,该事务对数据库所做的更改,便持久的保存在数据库之中,并不会回滚。
ADS(分析型数据库)AnalyticDB
阿里云的ADS(分析型数据库)海量数据下的实时计算系统,是RT-OLAP,采用云计算技术,强大的实时计算能力,可以在业务系统中使用全量数据,支持较高并发查询
OLTP类数据库系统对于处理海量数据或者频繁复杂的计算就会力不从心,这个时候便需要OLAP(On-Line Analytical Processing,联机分析处理)系统,从广义上,OLAP系统是针对OLTP系统而言的,即为不特别关心对数据进行输入、修改等事务性处理,而是关心对已有的大量数据进行多维度的、复杂的分析的一类数据系统。而在具体的产品中,通常将OLAP系统分为MOLAP、ROLAP和HOLAP三种。
多维OLAP(Multi-Dimensional OLAP,简称MOLAP),是预先根据数据需要分析的维度进行建模,在数据的物理存储层面以“立方体”(Cube)的结构进行存储,具有查询速度快等的优点,但是数据必须预先建模,无法依据使用者的意愿进行即时的修改。
关系型OLAP(RelationalOLAP,简称ROLAP),则使用类似关系数据库的模型进行数据存储,通过类似SQL等语言进行查询和计算,优点是数据查询计算自由,可以灵活的根据使用者的要求进行分析,但是缺点是在海量数据的情况下分析计算缓慢。
HOLAP,则是MOLAP和ROLAP的混合模式。
阿里云分析型数据库(原名:分析数据库服务ADS),则是一套RT-OLAP(Realtime OLAP,实时OLAP)系统。在数据存储模型上,采用自由灵活的关系模型存储,可以使用SQL进行自由灵活的计算分析,无需预先建模,而利用云计算技术,分析型数据库可以在处理百亿条甚至更多量级的数据上达到甚至超越MOLAP类系统的处理性能,真正实现百亿数据毫秒级计算。
阿里云分析型数据库让海量数据和实时与自由的计算可以兼得,实现了速度驱动的大数据商业变革。一方面,分析型数据库拥有快速处理百亿级别的大数据的能力,使得数据分析中使用的数据可以不再是抽样的,而是业务系统中产生的全量数据,使得数据分析的结果具有最大的代表性。而更重要的是,分析型数据库采用云计算技术,拥有强大的实时计算能力,通常可以在数百毫秒内完成十亿百亿的数据计算,使得使用者可以根据自己的想法在海量数据中自由的进行探索,而不是根据预先设定好的逻辑查看已有的数据报表。同时,由于分析型数据库能够支撑较高并发查询量,并且通过动态的多副本数据存储计算技术来保证较高的系统可用性,所以能够直接作为面向最终用户(End User)的产品(包括互联网产品和企业内部的分析产品)的后端系统。如淘宝数据魔方、淘宝指数、快的打车、阿里妈妈达摩盘(DMP)、淘宝美食频道等拥有数十万至上千万最终用户的互联网业务系统中,都使用了分析型数据库。分析型数据库作为海量数据下的实时计算系统,给使用者带来极速自由的大数据OLAP分析体验,最终期望为大数据行业带来巨大的变革。
OTS
阿里云的OTS 对应的实际产品是hbase,当然也有许多区别之处,OTS是NoSQL数据库存储服务,提供海量结构化数据的存储和实时访问检索,这一特点和hbase是一致的。所以相比 OLTP(联机事务处理)场景,表格存储更适用于 Web 规模级应用程序,包括社交网络、游戏、媒体共享和 IoT(物联网)和日志监控等场景。
hbase不支持sql,不支持建立二级索引
总结:odps和ADS主要针对OLAP场景,不支持删除和插入等事务操作,使用与海量数据的计算,odps是数据仓库,比较适合离线的分析挖掘,ADS比较适合于实时的海量数据分析,可在业务系统中使用全量数据进行计算,高并发。
RDS和OTS主要针对的是OLTP场景,RDS是关系型数据库,事务性强,实时性强,但是不适合海量数据计算处理。OTS主要用于NoSQL数据存储,提供海量结构化数据的存储和实时访问。