第6章 多媒体基础知识
-
信息系统综合知识:多媒体压缩、编码与存储技术
-
系统分析设计案例:分析某个具体的多媒体应用系统的体系结构
一、多媒体基础
1、多媒体计算机
多媒体计算机除了主要硬件,还包括音频信息处理硬件、视频信息处理硬件机光盘驱动器等部分,包括音频卡、视频卡、采集卡、扫描仪、光驱 2、媒体分类
-
感觉媒体:人体的感官可以接受信号的媒体
-
表示媒体:用来表示感觉媒体的数据编码,如图像编码、文本编码
-
表现媒体:进行信息输入和输出的媒体,如键盘、鼠标、扬声器等
-
存储媒体:储存表示媒体的无力实体,如硬盘、光盘
-
传输媒体:传输表示媒体的物理实体,如电缆、光缆等
3、存储媒体
CD、CD-ROM、DVD等
-
CD-ROM适用于大批量数据分发给大量用户,容量大、可靠性高、光盘复制容易、易更换,读取方式分为以下三种:以恒定角速度、线速度、部分恒定角速度读取
-
DVD-ROM比CD-ROM的存储容量高
4、多媒体集成语言
同步化多媒体集成语言(Synchronized Multimedia Integration Language,SMIL)操作多媒体片段,规定多媒体片段在什么时候、什么地方、以什么样的方式播放
二、压缩编码技术
对于多媒体数据压缩算法,数据质量时压缩的效果、数据量时压缩的能力、计算复杂度实施压缩的代价
1、数据压缩概述
原始数据存在很大冗余度,所以数据可以押送,多媒体数据的数据冗余分为以下几种
-
空间冗余:图像的背景及景物中,某点与相邻的区域内,存在有规则的相关性
-
时间冗余:电视动画类的图像,某一帧图像经过t时间,在下一帧图像中带有较强的相关性,即序列前后相邻的两幅图像之间呈较强的额相关性
-
知觉冗余:编码时,将处于人类听觉和视觉分辨率以下的视、音频信号舍去,人们感知不到,称超出人们感知能力部分的编码为知觉冗余
-
信息墒冗余
-
结构冗余:如布纹图像等,存在着非常强的纹理结构,即结构上存在冗余
-
知识冗余:图像的理解与某些基础知识是由很大相关行,比如嘴上面时鼻子等,可以从先验知识和背景知识得到的规律性结构即存在知识冗余
2、数据压缩分类
-
无损压缩法(冗余压缩法、熵编码法):过程可逆,去掉数据的冗余可以重新插入到数据中,因此是无失真的压缩,使用统计编码技术包括哈夫曼编码、算术编码、行程编码。压缩比通常是2:1~5:1。
-
有损压缩法:过程不可逆,压缩了熵,压缩比通常是100:1~400:1。通常分为特征抽取和量化两类
-
特征抽取:基于模式的编码、分形编码
-
量化:零记忆量化、预测编码、直接映射、变换编码
-
3、数据压缩的衡量标准
压缩前后的文件大小和数据量的比较,为压缩率的衡量指标
速度和成本
4、数据压缩标准
-
JPEG(Joint Photographic Experts Group,联合图像专家组)基于离散余弦变换(DCT)和可变编码算法,关键技术是变换编码、量化、差分编码、哈夫曼编码和行程编码
-
MPEG(动态图像专家组):特点:兼容性好、压缩比高,可达200:1;采用预测和插补两种帧间编码技术;视频压缩算法中包含两个基本技术:16*16子块运动补偿技术,用于减少帧序列的时域冗余,另一种是基于DCT的压缩,用于减少帧序列的空域冗余
- MPEG-1:帧内采用基于DCT的变换编码技术,减少空域冗余;帧间采用预测法和插补法,减少时域冗余;特点:随机存取、快速正向/逆向搜索、逆向重播、视听同步、容错性、编解码延迟。应用:数据电话网络上的视频传输、用于记录媒体、在internrt上传输音频
- MPEG-4:利用帧重建技术、压缩和传输数据,用最少的数据达到最佳图像质量,最大特点是提供更强的交互能力,应用实时视听通信(视频通话)、多媒体通信、远地监测/监视、VOD、家庭购物/娱乐等。
- MPEG-7:多媒体内容描述接口,为各类多媒体信息提供了一种标准化描述,目的是支持数据管理灵活性、数据资源全球化和互操作性;应用:支持音视频数据看在存储和检索、广播媒体的选择、因特网的个性服务
- MPEG-21:目标是将不同的协议、标准、技术有机融合
-
DVI(数字视频接口)
-
H.261:为可视电话和视频会议设计的,算法类似MPEG,但实时编码比MPEG占用CPU小,在图像质量和运动幅度采取折中,即剧烈运动的图像比静止的图像质量差,采用CIF和QCF为可视电话视频格式
-
H.263:为低带宽通信设计
三、音频数据
1)音频技术概述
音频技术包括音频采集、语音解码/编码、文字-声音转换、音乐合成、语音识别和理解、音频数据传输、音视频同步、阴坡效果与编辑等,计算机语音输出的方法有
-
录音/重放,可保留人、乐器的音色,但存储量随时长增大
-
文字-声音转换:需要建立语音参数数据库、发音规则库,然后通过计算机自动合成,语音规则库不会随时长增加变大,但是发音规则库会
2)音频数据存储和传输
音频数据要存储必须进行数字化,即经过采样、量化、编码
未压缩前文字每秒存储的字节数= 采样频率(HZ) * 量化/采样位数(b) * 声道数 / 8
3)音频数据的格式
-
WAVE:扩展名.wav,记录声音波形
-
MOD:扩展名.mod,用于记录乐谱、乐曲的样本,回放效果明确
-
Layer-3:扩展名.mp3,压缩率比较大,目前广泛使用
-
Real Audio:扩展名.ra,压缩力度大、极小失真,未解决传输带宽资源问题,所以目标是压缩比和容错率,其次是音质
-
CD Audio:扩展名.cda,唱片采用的样式,记录波形流,但不可编辑
-
MIDI(乐器数字接口):扩展名为.mid,音乐工业的数据通信标准,记录音乐的音符、音长等,类似于乐谱
-
CMF:扩展名.cmf,用于FM卡
四、颜色空间
1、颜色的属性
亮度、色调和饱和度
2、颜色空间
红绿蓝三原色是色度学中基本原理
-
RGB颜色空间,多媒体计算机中用的最多,使用R、G、B、三个分量比例表示不同颜色
-
YUV
-
CMY
3、图形与图像
1)概念
-
图像也称为位图或点阵图,由输入设备捕捉实际场景画面或数字化形式存储的任意画面,由排成行列的像素组成,存储格式有BMP、TIF,数据量大
-
图形也称矢量图形,值计算机绘制的画面,如直线、圆等,只保留算法和特征点,占用存储空间小,格式有3DS、DEF、WMF等
2)图像的主要指标
-
分辨率
-
屏幕分辨率:每英寸的点阵的行数和列数,值越大,质量越好
-
输出分辩率:每英寸的像素低单数,衡量输出设备精度,值越大,质量越好
-
-
点距:两个像素间的距离,分辨率越高,像素点距越小,效果越好
-
深度:彩色图像的每个像素可能的颜色数,或者是确定灰度的图像的每个像素的灰度等级,图像深度存储了每个像素所用的存储器位数,位数越多,颜色越多,深度越深
3)文件格式
BMP、DIB、GIF、WMP、JPEG、等等
五、视频数据
1、视频文件格式
-
Quicktime:苹果产品,扩展名.mov或.qt,面向终端用户桌面系统的低成本、全运动的视频方式,向量量化是Quicktime压缩的技术,压缩比25:!~200:1
-
AVI(音频视频交错格式):微软产品格式,
-
RealMedia:RealNetworks制定的音视频压缩规范,,扩展名.ra或.rm。采用流方式播放,是目前网上流行的跨平台的C/S结构多媒体的标准,采用音视频流和同步回放技术实现网上全带宽多媒体回放
-
ASF,微软恩家压缩格式,使用MPEG压缩算法
-
WMV:Windows媒体视频,独立于编码方式的在网上实时传播的多媒体技术标准
2、流媒体
实现流媒体传输的方法
-
顺序流传输:采用顺序下载方式传输,下载的同时用户可以在线回放多媒体数据,但给定时刻只能观看已下载的部分,不能跳到未下载的部分,不能调整下载速度,适合高质量的多媒体片段,如片头、片尾、广告等
-
实时流传输:保证多媒体信号带宽和当前网路状况相匹配,适合现场事件
流媒体传输的 主要协议
-
PNA(Progressive Networks Audio。顺序网路音频):Real专用的实时传输协议,使用UDP,占用7070端口
-
MMS(Microsoft Media Server Protocol,微软的流媒体服务器协议)。连接Windows Media 单播服务默认方法
-
RTP(Real-time Transport Protocol,实时传输协议),在Internet上处理多媒体数据流的网路协议,可在单播或多播的网路环境中实现流媒体数据的实时传输,通常使用UDP进行多媒体数据传输,RTP协议密切相关的协议有RTP数据协议和RTP控制协议
-
RTCP(Real-timeTransport Control Protocol,实时传输控制协议)与RTP数据协议配合使用,RTCP负责按序传输数据、流量控制等
-
RTSP(Real Time Streaming Protocol,实时流协议)应用层协议,在网上有效的传输多媒体数据。