第六章多媒体基础知识

第6章多媒体基础知识

信息系统综合知识：多媒体压缩、编码与存储技术
系统分析设计案例：分析某个具体的多媒体应用系统的体系结构

一、多媒体基础

1、多媒体计算机

多媒体计算机除了主要硬件，还包括音频信息处理硬件、视频信息处理硬件机光盘驱动器等部分，包括音频卡、视频卡、采集卡、扫描仪、光驱 2、媒体分类

感觉媒体：人体的感官可以接受信号的媒体
表示媒体：用来表示感觉媒体的数据编码，如图像编码、文本编码
表现媒体：进行信息输入和输出的媒体，如键盘、鼠标、扬声器等
存储媒体：储存表示媒体的无力实体，如硬盘、光盘
传输媒体：传输表示媒体的物理实体，如电缆、光缆等

3、存储媒体

CD、CD-ROM、DVD等

CD-ROM适用于大批量数据分发给大量用户，容量大、可靠性高、光盘复制容易、易更换，读取方式分为以下三种：以恒定角速度、线速度、部分恒定角速度读取
DVD-ROM比CD-ROM的存储容量高

4、多媒体集成语言

同步化多媒体集成语言(Synchronized Multimedia Integration Language,SMIL)操作多媒体片段，规定多媒体片段在什么时候、什么地方、以什么样的方式播放

二、压缩编码技术

对于多媒体数据压缩算法，数据质量时压缩的效果、数据量时压缩的能力、计算复杂度实施压缩的代价

1、数据压缩概述

原始数据存在很大冗余度，所以数据可以押送，多媒体数据的数据冗余分为以下几种

空间冗余：图像的背景及景物中，某点与相邻的区域内，存在有规则的相关性
时间冗余：电视动画类的图像，某一帧图像经过t时间，在下一帧图像中带有较强的相关性，即序列前后相邻的两幅图像之间呈较强的额相关性
知觉冗余：编码时，将处于人类听觉和视觉分辨率以下的视、音频信号舍去，人们感知不到，称超出人们感知能力部分的编码为知觉冗余
信息墒冗余
结构冗余：如布纹图像等，存在着非常强的纹理结构，即结构上存在冗余
知识冗余：图像的理解与某些基础知识是由很大相关行，比如嘴上面时鼻子等，可以从先验知识和背景知识得到的规律性结构即存在知识冗余

2、数据压缩分类

无损压缩法(冗余压缩法、熵编码法)：过程可逆，去掉数据的冗余可以重新插入到数据中，因此是无失真的压缩，使用统计编码技术包括哈夫曼编码、算术编码、行程编码。压缩比通常是2:1～5:1。
有损压缩法：过程不可逆，压缩了熵，压缩比通常是100:1～400:1。通常分为特征抽取和量化两类
- 特征抽取：基于模式的编码、分形编码
- 量化：零记忆量化、预测编码、直接映射、变换编码

3、数据压缩的衡量标准

压缩前后的文件大小和数据量的比较，为压缩率的衡量指标

速度和成本

4、数据压缩标准

JPEG(Joint Photographic Experts Group,联合图像专家组)基于离散余弦变换(DCT)和可变编码算法,关键技术是变换编码、量化、差分编码、哈夫曼编码和行程编码
MPEG(动态图像专家组)：特点：兼容性好、压缩比高，可达200:1；采用预测和插补两种帧间编码技术；视频压缩算法中包含两个基本技术：16*16子块运动补偿技术，用于减少帧序列的时域冗余，另一种是基于DCT的压缩，用于减少帧序列的空域冗余

- MPEG-1:帧内采用基于DCT的变换编码技术，减少空域冗余；帧间采用预测法和插补法，减少时域冗余；特点：随机存取、快速正向/逆向搜索、逆向重播、视听同步、容错性、编解码延迟。应用：数据电话网络上的视频传输、用于记录媒体、在internrt上传输音频

- MPEG-4：利用帧重建技术、压缩和传输数据，用最少的数据达到最佳图像质量，最大特点是提供更强的交互能力，应用实时视听通信(视频通话)、多媒体通信、远地监测/监视、VOD、家庭购物/娱乐等。

- MPEG-7:多媒体内容描述接口，为各类多媒体信息提供了一种标准化描述，目的是支持数据管理灵活性、数据资源全球化和互操作性；应用：支持音视频数据看在存储和检索、广播媒体的选择、因特网的个性服务

- MPEG-21:目标是将不同的协议、标准、技术有机融合

DVI(数字视频接口)
H.261:为可视电话和视频会议设计的，算法类似MPEG，但实时编码比MPEG占用CPU小，在图像质量和运动幅度采取折中，即剧烈运动的图像比静止的图像质量差，采用CIF和QCF为可视电话视频格式
H.263:为低带宽通信设计

三、音频数据

1）音频技术概述

音频技术包括音频采集、语音解码/编码、文字-声音转换、音乐合成、语音识别和理解、音频数据传输、音视频同步、阴坡效果与编辑等，计算机语音输出的方法有

录音/重放，可保留人、乐器的音色，但存储量随时长增大
文字-声音转换：需要建立语音参数数据库、发音规则库，然后通过计算机自动合成，语音规则库不会随时长增加变大，但是发音规则库会

2）音频数据存储和传输

音频数据要存储必须进行数字化，即经过采样、量化、编码

未压缩前文字每秒存储的字节数= 采样频率(HZ) * 量化/采样位数(b) * 声道数 / 8

3）音频数据的格式

WAVE：扩展名.wav,记录声音波形
MOD：扩展名.mod,用于记录乐谱、乐曲的样本，回放效果明确
Layer-3:扩展名.mp3,压缩率比较大，目前广泛使用
Real Audio：扩展名.ra，压缩力度大、极小失真，未解决传输带宽资源问题，所以目标是压缩比和容错率，其次是音质
CD Audio：扩展名.cda，唱片采用的样式，记录波形流，但不可编辑
MIDI(乐器数字接口)：扩展名为.mid,音乐工业的数据通信标准，记录音乐的音符、音长等，类似于乐谱
CMF：扩展名.cmf，用于FM卡

四、颜色空间

1、颜色的属性

亮度、色调和饱和度

2、颜色空间

红绿蓝三原色是色度学中基本原理

RGB颜色空间，多媒体计算机中用的最多，使用R、G、B、三个分量比例表示不同颜色
YUV
CMY

3、图形与图像

1）概念

图像也称为位图或点阵图，由输入设备捕捉实际场景画面或数字化形式存储的任意画面，由排成行列的像素组成，存储格式有BMP、TIF，数据量大
图形也称矢量图形，值计算机绘制的画面，如直线、圆等，只保留算法和特征点，占用存储空间小，格式有3DS、DEF、WMF等

2）图像的主要指标

分辨率
- 屏幕分辨率：每英寸的点阵的行数和列数，值越大，质量越好
- 输出分辩率：每英寸的像素低单数，衡量输出设备精度，值越大，质量越好
点距：两个像素间的距离，分辨率越高，像素点距越小，效果越好
深度：彩色图像的每个像素可能的颜色数，或者是确定灰度的图像的每个像素的灰度等级，图像深度存储了每个像素所用的存储器位数，位数越多，颜色越多，深度越深

3）文件格式

BMP、DIB、GIF、WMP、JPEG、等等

五、视频数据

1、视频文件格式

Quicktime：苹果产品，扩展名.mov或.qt，面向终端用户桌面系统的低成本、全运动的视频方式，向量量化是Quicktime压缩的技术，压缩比25:！～200:1
AVI(音频视频交错格式)：微软产品格式，
RealMedia：RealNetworks制定的音视频压缩规范，，扩展名.ra或.rm。采用流方式播放，是目前网上流行的跨平台的C/S结构多媒体的标准，采用音视频流和同步回放技术实现网上全带宽多媒体回放
ASF，微软恩家压缩格式，使用MPEG压缩算法
WMV：Windows媒体视频，独立于编码方式的在网上实时传播的多媒体技术标准

2、流媒体

实现流媒体传输的方法

顺序流传输：采用顺序下载方式传输，下载的同时用户可以在线回放多媒体数据，但给定时刻只能观看已下载的部分，不能跳到未下载的部分，不能调整下载速度，适合高质量的多媒体片段，如片头、片尾、广告等
实时流传输：保证多媒体信号带宽和当前网路状况相匹配，适合现场事件

流媒体传输的主要协议

PNA（Progressive Networks Audio。顺序网路音频）：Real专用的实时传输协议，使用UDP，占用7070端口
MMS（Microsoft Media Server Protocol，微软的流媒体服务器协议）。连接Windows Media 单播服务默认方法
RTP（Real-time Transport Protocol，实时传输协议），在Internet上处理多媒体数据流的网路协议，可在单播或多播的网路环境中实现流媒体数据的实时传输，通常使用UDP进行多媒体数据传输，RTP协议密切相关的协议有RTP数据协议和RTP控制协议
RTCP（Real-timeTransport Control Protocol，实时传输控制协议）与RTP数据协议配合使用，RTCP负责按序传输数据、流量控制等
RTSP（Real Time Streaming Protocol，实时流协议）应用层协议，在网上有效的传输多媒体数据。

第六章 多媒体基础知识

悦读

第六章多媒体基础知识