视频，多媒体本地化总结

概念历史

提到多媒体不得不说到广播和无线电技术也叫做模拟信号，现代的是数字视频，没有以前的模拟视频就没有现代的数字视频，现在的数字视频技术是在模拟视频技术上不断发展起来的，并且很多地方仍然保留着模拟时代的烙印。

电视的实现，不仅扩大和延伸了人们的视野，而且以其形象、生动、及时的优点提高了信息传播的质量和效率。在当今社会，信息与电视是不可分割的。多媒体的概念虽然与电视的概念不同，但在其综合文、图、声、像等作为信息传播媒体这一点上是完全相同的。不同的是电视中没有交互性，传播的信号是模拟信号而不是数字信号。利用多媒体计算机和网络的数字化、大容量、交互性以及快速处理能力，对视频信号进行采集、处理、传播和存储是多媒体技术正在不断追求的目标。可以说视频是多媒体的一种重要媒体。与视频有关的名词如下：

视像（visual image）：电视信号或录像带（videotape）上记录的连续的图像。

伴音（audio）：伴随视像的声音信号。

数字视频（digital video）：包括运动图像（visual）和伴音（audio）两部分。

一般说来，视频包括可视的图像和可闻的声音，然而由于伴音是处于辅助的地位，并且在技术上视像和伴音是同步合成在一起的，因此具体讨论时有时把视频（video）与视像（visual）等同，而声音或伴音则总是用audio表示。所以，在用到“视频”这个概念时，它是否包含伴音要视具体情况而定。

首先介绍模拟视频信号的基本概念，然后介绍视频信号的数字化标准，数字视频的几种主要格式MPEG、AVI和MOV，以及格式间的转换。

模拟电视制式及信号

电视系统是采用电子学的方法来传送和显示活动景物或静止图像的设备。在电视系统中，可以说视频信号是连接系统中各部分的纽带，其标准和要求也就是系统各部分的技术目标和要求。电视的发展前景是数字彩色电视，数字视频系统的基础是模拟视频系统，而彩色电视又是在黑白电视的基础上发展起来的。

黑白电视信号

电视原理：电视同样也是采用动画的视觉原理构造而成的，其基本原理为顺序扫描和传输图像信号，然后在接收端同步再现。电视图像扫描是由隔行扫描组成场，由场组成帧，一帧为一幅图像。定义每秒钟扫多少帧为帧频；每秒钟扫描多少场为场频；每秒钟扫描多少行为行频。
场频和帧频：我国的电视画面传输率是每秒25帧、50场。25Hz的帧频能以最少的信号容量有效地满足人眼的视觉残留特性；50Hz的场频隔行扫描，把一帧分成奇、偶两场，奇偶的交错扫描相当于有遮挡板的作用。这样，在其它行还在高速扫描时，人眼不易觉察出闪烁，同时也解决了信号带宽的问题。由于我国的电网频率是50Hz，采用50Hz的场刷新率可以有效地去掉电网信号的干扰。
全电视信号：电视信号中除了图像信号以外，还包括同步信号。所谓同步是指摄像端（发送端）的行、场扫描步调要与显像端（接收端）扫描步调完全一致，即要求同频率、同相位才能得到一幅稳定的画面。一帧电视信号称为一个全电视信号，它又由奇数场行信号和偶数场行信号顺序构成。
分解率：电视的清晰度一般用垂直方向和水平方向的分解率来表示。垂直分解率与扫描行数密切相关。扫描行数越多越清晰、分解率越高。我国电视图像的垂直分解率为575行或称575线。这是一个理论值，实际分解率与扫描的有效区间有关，根据统计，电视接收机实际垂直分解率约400线。
水平方向的分解率或像素数决定电视信号的上限频率。最复杂的电视图像莫过于黑白方块交错排列的图案，而方块的大小由分解率决定。根据这种图案，可以计算出电视信号逐行扫描时的信号带宽约为10MHz；而隔行扫描时的信号带宽约为 5MHz。我国目前规定的电视图像信号的标称频带宽度为6MHz，根据带宽，可以反推出理论上电视信号的水平分解率约630线。
伴音：音频信号的频率范围一般为20Hz－20KHz，其频带比图像信号窄得多。电视的伴音要求与图像同步，而且不能混迭。因此一般把伴音信号放置在图像频带以外，放置的频率点称为声音载频，我国电视信号的声音载频为6.5MHz，伴音质量为单声道调频广播

彩色电视信号

彩色与黑白电视信号的兼容：黑白电视只传送一个反映景物亮度的电信号就行了，而彩色电视除了传送亮度信号以外还要传送色度信号。所谓黑白电视与彩色电视的兼容是指黑白电视机接收彩色电视信号时能够产生相应的黑白图像；而彩色电视机在接收黑白电视信号时也能产生相应的黑白电视图像。也即电视台发射一种彩色电视信号，黑白和彩色电视都能正常工作。
兼容的实现：
1. 在彩色电视信号中首先必须使亮度和色度信号分开传送，以便使黑白电视和彩色电视能够分别重现黑白和彩色图像。用YUV空间表示法就能解决这个问题。采用 YUV空间还可以充分利用人眼对亮度细节敏感而对彩色细节迟钝的视觉特性，大大压缩色度信号的带宽。我国规定的亮度信号带宽为6MHz，而色度信号U、V 的带宽分别仅为1.3MHz。色度信号的高频分量几乎都被压缩掉了，如果仅靠两个1.3MHz的色信号来反映图像细节将会使图像模糊，界限不清楚。实际上由于亮度信号具有6MHz的带宽，其细节是很清晰的，用它完全可以补偿色度信号缺少高频分量的缺陷。这种用亮度信号来补偿色度信号高频不足的方法称为高频混合法，它类似于大面积着色原理，图像细节完全依靠黑白细节来满足。
2. 尽量压缩彩色电视信号的频带宽度，使其与黑白电视信号的带宽相同。为了解决信号频带的兼容问题，采用频谱交错的方法，把两个1.3MHz的色度信号频谱间插在亮度信号频谱的高端，这是因为亮度信号的频谱高端信号较弱，而且间隔较大。这样既不增加6MHz的带宽，又不会引起亮度和色度信号的混乱，而且也不会与伴音信号混叠。
3. 除了新设置的色同步信号以外，应采用与黑白电视信号完全一致的行、场扫描以及消隐、同步等控制信号。色度的同步信号是叠加在行消隐脉冲之上，这样可以保证彩色电视与黑白电视的扫描和同步完全一致。黑白电视在接收到彩色全电视信号以后，可从中获取黑白电视信号，实现彩色电视与黑白电视的兼容。

彩色电视的制式

电视信号的标准也称为电视的制式。目前各国的电视制式不尽相同，制式的区分主要在于其帧频（场频）的不同、分解率的不同、信号带宽以及载频的不同、色彩空间的转换关系不同等等。世界上现行的彩色电视制式有三种：NTSC（National Television System Committee）制（简称N制）、PAL（Phase Alternation Line）制和SECAM制。

彩色电视国际制式

TV制式	帧频（Hz）	行/帧	亮度带宽（MHz）	彩色幅载波（MHz）	色度带宽（MHz）	声音载波（MHz）
NTSC－M	30	525	4.2	3.58	1.3(I)，0.6(Q)	4.5
PAL－D	25	625	6	4.43	1.3(U)，1.3(V)	6.5
SECAM	25	625	6	4.25	>1.0(U)，>1.0(V)	6.5

NTSC制式：它是1952年由美国国家电视标准委员会指定的彩色电视广播标准，它采用正交平衡调幅的技术方式，故也称为正交平衡调幅制。美国、加拿大等大部分西半球国家以及中国的台湾、日本、韩国、菲律宾等均采用这种制式。
PAL制式：它是西德在1962年指定的彩色电视广播标准，它采用逐行倒相正交平衡调幅的技术方法，克服了NTSC制相位敏感造成色彩失真的缺点。西德、英国等一些西欧国家，新加坡、中国大陆及香港，澳大利亚、新西兰等国家采用这种制式。PAL制式中根据不同的参数细节，又可以进一步划分为G、I、D等制式，其中PAL－D制是我国大陆采用的制式。
SECAM制式：SECAM是法文的缩写，意为顺序传送彩色信号与存储恢复彩色信号制，是由法国在1956年提出，1966年制定的一种新的彩色电视制式。它也克服了NTSC制式相位失真的缺点，但采用时间分隔法来传送两个色差信号。使用 SECAM制的国家主要集中在法国、东欧和中东一带。
为了接收和处理不同制式的电视信号，也就发展了不同制式的电视接收机和录像机。

电视接收机的输入输出信号

电视频道传送的电视信号主要包括五种成分：亮度信号、色度信号、色同步信号、复合同步信号和伴音信号，这些信号或者可通过频率域，或者可通过时间域相互分离出来。电视接收机是能够将所接收到的高频电视信号还原成视频信号和低频伴音信号，并能够在其荧光屏上重现图像，在其扬声器上重现伴音的电子设备。根据不同的信号源，电视接收机的输入、输出信号有三种类型：

高频或射频信号

为了能够在空中传播电视信号，必须把视频全电视信号调制成高频或射频（RF－Radio Frequency）信号，每个信号占用一个频道，这样才能在空中同时传播多路电视节目而不会导致混乱。我国采样PAL制，每个频道占用8MHz的带宽；美国采用NTSC制，电视从2频道至69频道，每个频道的带宽为4MHz，电视信号频带共占用54 MHz至806 MHz的信道。有线电视CATV（Cable Television）的工作方式类似，只是它通过电缆而不是通过空中传播电视信号。

电视机在接收受到某一频道的高频信号后，要把全电视信号从高频信号中解调出来，才能在屏幕上重现视频图像。

复合视频信号

复合视频（Composite Video）信号定义为包括亮度和色度的单路模拟信号，也即从全电视信号中分离出伴音后的视频信号，这时的色度信号还是间插在亮度信号的高端。由于复合视频的亮度和色度是间插在一起的，在信号重放时很难恢复完全一致的色彩。这种信号一般可通过电缆输入或输出到家用录像机上，其信号带宽较窄，一般只有水平 240线左右的分解率。早期的电视机都只有天线输入端口，较新型的电视机才备有复合视频输入和输出端（Video In，Video Out），也即可以直接输入和输出解调后的视频信号。视频信号已不包含高频分量，处理起来相对简单一些，因此计算机的视频卡一般都采用视频输入端获取视频信号。由于视频信号中已不包含伴音，故一般与视频输入、输出端口配套的还有音频输入、输出端口（Audio－In、Audio－Out），以便同步传输伴音。因此，有时复合式视频接口也称为AV（Audio Video）口。

S－Video信号（S-端子）

目前有的电视机还备有两分量视频输入端口（S－Video In），S－Video是一种两分量的视频信号，它把亮度和色度信号分成两路独立的模拟信号，用两路导线分别传输并可以分别记录在模拟磁带的两路磁迹上。这种信号不仅其亮度和色度都具有较宽的带宽，而且由于亮度和色度分开传输，可以减少其互相干扰，水平分解率可达420线。与复合视频信号相比，S－Video可以更好地重现色彩。

两分量视频可来自于高档摄像机，它采用两分量视频的方式记录和传输视频信号。其它如高档录像机、激光视盘LD机的输出也可按分量视频的格式，其清晰度比从家用录像机获得的电视节目的清晰度要高得多。

不同制式的电视机只能接收和处理其对应制式的电视信号。当然，目前也发展了多制式或全制式的电视机，这为处理和转换不同制式的电视信号提供了极大的方便。全制式电视机可在各国各地区使用，而多制式电视机一般为指定范围的国家生产。如Panasonic TC-2188M多制式电视机，适用于PAL－D，I制和NTSC（3.58）制，也即它可以在中国大陆（PAL－D）、香港（PAL－I）和日本（NTSC 3.58）使用。

（蓝色部分是，为了进一步解决清晰度问题，电视机上后来又引入了新的分量接口：

YPbPr----数字色差分量，其中的P是Part或者Partial的意思或者

YCbCr----模拟色差分量，其中的C是Chroma的意思

每一路对应为绿，蓝和红三种颜色，互不干扰）

录像机分类及输入输出信号

录像机是利用磁记录原理把视频信号及其伴音信号记录在磁带上的设备，故也称为磁带录像机（VTR－－Video Tape Recorder 或VCR－－Video Cassette Recorder）。

与电视机类似，不同的录像机对应于不同制式的电视信号。录像机除了包含电子部件来进行电视信号的变换和处理以外，还主要包括精密机械部分来控制磁带的运动和读写等操作。机械部分的精密程度不同、磁带尺寸及磁记录的方式不同，导致了记录信号的精度不同以及磁带的不通用性。目前世界范围内使用的录像机种类繁多，指标各异，分类方法也很多。按用途分主要有以下三种：

家用录像机

1975年SONY公司开发了家用β－max型录像机，1976年日本的JVC、National等公司推出了家用VHS型录像机。β和VHS是两种不同的磁记录格式，完全不兼容，因此即使磁带的尺寸相同也不能互换使用，目前国内使用的基本上是VHS型。VHS型录像机是采用复合视频的格式来记录视频信号。根据不同的制式，同一种型号的家用录像机还有单制式、多制式和全制式之分。

家用录像机可处理和记录的视频带宽不够，因此采用将全电视信号中的色度信号降频到1MHz以下进行记录，重放时再将其升至色度副载波的方式。这样一降一升，信号质量自然下降。视频信号水平分解率只能达到230－240线，一般具有射频、复合视频以及音频的输入输出端口，可以与电视机的相应端口连接，进行节目的录制和重放。家用录像带是目前数字视频的主要信号源。

专业用录像机

这一般指工业、文教、卫生等方面使用的录像机，其视频信号的水平分解率可达250以上。除了具有信号的记录和重放功能以外，它还具有编辑等功能，价格是家用录像机的十倍左右。这是目前制作电视或录像节目时大量使用的机种。如JVC公司推出的Super-VHS录像机，其磁带的格式为S－VHS，水平分解率高达400线，它采用两分量视频（S－Video）的格式进行记录和输入输出。实际上，S－Video接口的产生最早来自于S－VHS型的录像机。由于S－VHS采用亮、色分离的方式记录视频信号，它具有较高的分解率，可以直接送到电视机的扫描电路前，较好地保证视频的质量。

广播级录像机

这是最高质量的录像机，其技术指标是以视频信号的频带宽度来衡量的，一般视频带宽可高达5MHz，相当于400多线的水平分解率（每1MHz带宽相当于水平分解率约80线），基本上可以无失真记录和重放视频信号。广播级录像机采用分量视频信号（component video）的记录方式，分量视频指的是亮度Y，色差U和V分别是三路模拟信号，他们通过三路导线传送并记录在模拟磁带的三路磁迹上。分量视频由于其具有很宽的频带，可以提供最高质量及最精确的色彩重放。

由于磁带上记录的是模拟视频信号，因此信噪比也是衡量信号质量的一个重要指标之一。一般地说，信噪比高于45dB就能达到较满意的图像质量。如果从天线接收到的电视信号较强，则直接从电视上观看的效果要比先录制到家用录像带上再重放的效果好。而且重放的次数越多或拷贝次数越多，信噪比越低。磁带信号拷贝一次，其信噪比降低一倍（减少3dB）。

数字视频的采样格式及数字化标准

模拟视频的数字化包括不少技术问题，如电视信号具有不同的制式而且采用复合的YUV信号方式，而计算机工作在RGB空间（打印机使用的是CMKY色彩）；电视机是隔行扫描，计算机显示器大多逐行扫描；电视图像的分辨率与显示器的分辨率也不尽相同等等。因此，模拟视频的数字化主要包括色彩空间的转换、光栅扫描的转换以及分辨率的统一。

模拟视频一般采用分量数字化方式，先把复合视频信号中的亮度和色度分离，得到YUV或YIQ分量，然后用三个模／数转换器对三个分量分别进行数字化，最后再转换成RGB空间。

数字视频的采样格式

根据电视信号的特征，亮度信号的带宽是色度信号带宽的两倍。因此其数字化时可采用幅色采样法，即对信号的色差分量的采样率低于对亮度分量的采样率。用 Y：U：V来表示YUV三分量的采样比例，则数字视频的采样格式分别有4：1：1、4：2：2和4：4：4三种。电视图像既是空间的函数，也是时间的函数，而且又是隔行扫描式，所以其采样方式比扫描仪扫描图像的方式要复杂得多。分量采样时采到的是隔行样本点，要把隔行样本组合成逐行样本，然后进行样本点的量化，YUV到RGB色彩空间的转换等等，最后才能得到数字视频数据。

数字视频标准

为了在PAL、NTSC和 SECAM电视制式之间确定共同的数字化参数，国家无线电咨询委员会（CCIR）制定了广播级质量的数字电视编码标准，称为CCIR 601标准。在该标准中，对采样频率、采样结构、色彩空间转换等都作了严格的规定，主要有：

采样频率为f s＝13.5MHz
分辨率与帧率

电视制式	分辨率	帧率
NTSC	640×480	30
PAL、SECAM	768×576	25

根据f s的采样率，在不同的采样格式下计算出数字视频的数据量：

采样格式（Y：U：V）	数据量（Mbyte/s）
4：2：2	27
4：4：4	40

这种未压缩的数字视频数据量对于目前的计算机和网络来说无论是存储或传输都是不现实的，因此在多媒体中应用数字视频的关键问题是数字视频的压缩技术。

视频序列的SMPTE表示单位
通常用时间码来识别和记录视频数据流中的每一帧，从一段视频的起始帧到终止帧，其间的每一帧都有一个唯一的时间码地址。根据动画和电视工程师协会 SMPTE（Society of Motion Picture and Television Engineers）使用的时间码标准，其格式是：小时：分钟：秒：帧，或 hours：minutes：seconds：frames。一段长度为00：02：31：15的视频片段的播放时间为2分钟31秒15帧，如果以每秒30帧的速率播放，则播放时间为2分钟31.5秒。
根据电影、录像和电视工业中使用的帧率的不同，各有其对应的SMPTE标准。由于技术的原因（为了把信号和载波区分开，频率降低千分之一）NTSC制式实际使用的帧率是29.97fps而不是30fps，因此在时间码与实际播放时间之间有0.1%的误差。为了解决这个误差问题，设计出丢帧（drop-frame）格式，也即在播放时每分钟要丢2帧（实际上是有两帧不显示而不是从文件中删除），这样可以保证时间码与实际播放时间的一致。与丢帧格式对应的是不丢帧（nondrop-frame）格式，它忽略时间码与实际播放帧之间的误差。

然而电影胶片是以24fps的速度播放，如此一来29.97/30*24=23.976fps，电影在电视上就变成了23.976fps

视频压缩编码的基本概念

视频压缩的目标是在尽可能保证视觉效果的前提下减少视频数据率。视频压缩比一般指压缩后的数据量与压缩前的数据量之比。由于视频是连续的静态图像，因此其压缩编码算法与静态图像的压缩编码算法有某些共同之处，但是运动的视频还有其自身的特性，因此在压缩时还应考虑其运动特性才能达到高压缩的目标。在视频压缩中常需用到以下的一些基本概念：

有损和无损压缩：在视频压缩中有损（Lossy）和无损（Lossless）的概念与静态图像中基本类似。无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息，而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩，这样才能达到低数据率的目标。丢失的数据率与压缩比有关，压缩比越小，丢失的数据越多，解压缩后的效果一般越差。此外，某些有损压缩算法采用多次重复压缩的方式，这样还会引起额外的数据丢失。

二、 帧内和帧间压缩：帧内（Intraframe）压缩也称为空间压缩（Spatial compression）。当压缩一帧图像时，仅考虑本帧的数据而不考虑相邻帧之间的冗余信息，这实际上与静态图像压缩类似。帧内一般采用有损压缩算法，由于帧内压缩时各个帧之间没有相互关系，所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。
采用帧间（Interframe）压缩是基于许多视频或动画的连续前后两帧具有很大的相关性，或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息，根据这一特性，压缩相邻帧之间的冗余量就可以进一步提高压缩量，减小压缩比。帧间压缩也称为时间压缩（Temporal compression），它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值（Frame differencing）算法是一种典型的时间压缩法，它通过比较本帧与相邻帧之间的差异，仅记录本帧与其相邻帧的差值，这样可以大大减少数据量。

帧间压缩，将图像分割成小块(单元Unit)

就会有一定数量的小块(单元Unit)完全一致，重复出现

在此基础概念上，仅保留唯一的小块(单元Unit)并记录相关重复信息

帧间压缩

三、 对称和不对称编码：对称性（symmetric）是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间，对称算法适合于实时压缩和传送视频，如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中，一般是把视频预先压缩处理好，尔后再播放，因此可以采用不对称（asymmetric）编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间，而解压缩时则能较好地实时回放，也即以不同的速度进行压缩和解压缩。一般地说，压缩一段视频的时间比回放（解压缩）该视频的时间要多得多。例如，压缩一段三分钟的视频片断可能需要10多分钟的时间，而该片断实时回放时间只有三分钟。

常见数字视频格式解说

MPEG数字视频

MPEG是Moving Picture Experts Group的简称。这个名字本来的含义是指一个研究视频和音频编码标准的小组。现在我们所说的MPEG泛指又该小组制定的一系列视频编码标准。该小组于 1988年组成，至今已经制定了MPEG-1、MPEG-2、MPEG-3、MPEG-4、MPEG-7等多个标准，MPEG-21正在制定中。

MPEG-1：第一个官方的视訊音訊压缩标准，随后在Video CD中被采用，其中的音訊压缩的第三级（MPEG-1 Layer 3）简称MP3，成为比较流行的音訊压缩格式。
MPEG-2：广播质量的视訊、音訊和传输协议。被用于無線數位電視-ATSC、DVB以及ISDB、数字卫星电视（例如DirecTV）、数字有线电视信号，以及DVD视频光盘技术中。
MPEG-3：原本目标是为高解析度电视（HDTV）设计，随后發現MPEG-2已足夠HDTV應用，故 MPEG-3的研發便中止。
MPEG- 4：2003 年发布的视訊压缩标准，主要是扩展MPEG-1、MPEG-2等標準以支援視訊／音訊物件（video/audio "objects"）的編碼、3D內容、低位元率編碼（low bitrate encoding）和數位版權管理（Digital Rights Management），其中第10部分由ISO/IEC和ITU-T联合发布，称为H.264/MPEG-4 Part 10。H.264是一种视频高压缩技术，同时称为MPEG-4 AVC，或MPEG-4 Part10。
MPEG-7：MPEG-7并不是一个视訊压缩标准，它是一个多媒体内容的描述标准。
MPEG-21：MPEG-21是一个正在制定中的标准，它的目标是为未来多媒体的应用提供一个完整的平台。

AAC（Advanced Audio Coding），中文称为“高级音频编码”，出现于1997年，基于 MPEG-2的音频编码技术。由Fraunhofer IIS、杜比实验室、AT&T、Sony（索尼）等公司共同开发，目的是取代MP3格式。2000年，MPEG-4标准出现后，AAC 重新集成了其特性，加入了SBR技术和PS技术，为了区别于传统的 MPEG-2 AAC 又称为 MPEG-4 AAC。

AVI数字视频

AVI（Audio Video Interleave）是一种音频视像交插记录的数字视频文件格式。1992年初Microsoft公司推出了AVI技术及其应用软件VFW（Video for Windows）。在AVI文件中，运动图像和伴音数据是以交织的方式存储，并独立于硬件设备。这种按交替方式组织音频和视像数据的方式可使得读取视频数据流时能更有效地从存储媒介得到连续的信息。构成一个AVI文件的主要参数包括视像参数、伴音参数和压缩参数等。

视像参数
1、视窗尺寸（Video size）：根据不同的应用要求，AVI的视窗大小或分辨率可　按4：3的比例或随意调整：大到全屏640×480，小到160×120甚至更低。
窗口越大，视频文件的数据量越大。
2、帧率（Frames per second）：帧率也可以调整，而且与数据量成正比。不同的帧率会产生不同的画面连续效果。

二、 伴音参数：在AVI文件中，视像和伴音是分别存储的，因此可以把一段视频中的视像与另一段视频中的伴音组合在一起。AVI 文件与WAV文件密切相关，因为WAV文件是AVI文件中伴音信号的来源。伴音的基本参数也即WAV文件格式的参数，除此以外，AVI文件还包括与音频有关的其他参数：
1、视像与伴音的交织参数（Interlace Audio Every X Frames）
AVI格式中每X帧交织存储的音频信号，也即伴音和视像交替的频率X是可调参　数，X的最小值是一帧，即每个视频帧与音频数据交织组织，这是CD－ROM上使用的默认值。交织参数越小，回放AVI文件时读到内存中的数据流越少，回放越容易连续。因此，如果AVI文件的存储平台的数据传输率较大，则交错参数可设置得高一些。当AVI文件存储在硬盘上时，也即从硬盘上读AVI文件进行播放时，可以使用大一些的交织频率，如几帧，甚至1秒。
2、同步控制（Synchronization）
在AVI文件中，视像和伴音是同步得很好的。但在MPC中回放AVI文件时则有可能出现视像和伴音不同步的现象。

三、 压缩参数：在采集原始模拟视频时可以用不压缩的方式，这样可以获得最优秀的图像质量。编辑后应根据应用环境环择合适的压缩参数。

ASF数字视频

ASF (Advanced Streaming format高级流格式)。ASF是微软为了和Real player竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式。ASF使用了MPEG4的压缩算法，压缩率和图像的质量都很不错。因为ASF是以一个可以在网上即时观赏的视频“流”格式存在的。

WMV数字视频

Microsoft 公司主导的音频视频编码系列，它的出现主要是为了进行网络视频传输，现在已经向HDTV 方面进军，开发了 WMV HD 应用。WMV（Windows Media Video）是微软公司开发的一组数字视频编解码格式的通称，它是Windows Media架构下的一部分。它最初是为低速率流媒体应用作为专有编解码开发出来的，但是2003年微软公司基于Windows Media Video第9版编解码起草了视频编解码规范并且提交给SMPTE申请作为标准。这个标准在2006年3月作为SMPTE 421M被正式批准，这样Windows Media Video 9编解码就不再是一个专有的技术。早期的变解码版本（7和8）仍然被认为是专有技术，因为它们不在SMPTE 421M标准的涵盖范围内。

微软媒体系列分为WMV（Windows Media Video）和WMA（Windows Media Audio）

WMV-HD也叫VC-1，全名VC-1视讯编解码器（Video Codec 1），是基于微软WMV9，并推广为工业标准。2003年提出标准化申请，最早名字是VC-9。2006年4月正式通过成为标准。VC-1是SMPTE 421M视频编解码标准的正式名称。HD DVD 和蓝光光碟（Blu-ray Disc）都支援VC-1。微软表示Windows Vista将支援VC-1影像压缩技术的HD DVD规格。电影及电视学会（SMPTE）已采用VC-1为视讯压缩标准。

Windows Media Player是Windows平台使用最广的媒体播放器

MOV数字视频格式

AVI文件格式和Windows Media Player是Microsoft为PC机设计的数字视频格式和应用软件。对于目前世界上的另一大类微机－－Apple公司的Macintosh机，Apple公司也推出了相应的视频格式，即MOV（Movie digital video technology）的文件格式，其文件以MOV为后缀，相应的视频应用软件为Apple's QuickTime for Macintosh。该软件的功能与VFW类似，只不过用于Macintosh机。同时Apple公司也推出了适用于PC机的视频应用软件Apple's QuickTime for Windows，因此在MPC机上也可以播放MOV视频文件。

MOV格式的视频文件也可以采用不压缩或压缩的方式，其压缩算法包括Sorenson 3、Cinepak、Intel Indeo Video R3.2 和Video编码。其中Cinepak和Intel Indeo Video R3.2算法的应用和效果与AVI格式中的应用和效果类似。而Video格式编码适合于采集和压缩模拟视频，并可从硬盘平台上高质量回放，从光盘平台上回放质量可调。这种算法支持16位图像深度的帧内压缩和帧间压缩，帧率可达每秒10帧以上。

Ogg WebM数字视频格式

Ogg是一个自由且开放标准的容器格式，由Xiph.Org 基金会所维护。Ogg格式并不受到软件专利的限制，并设计用于有效率地串流媒体和处理高质量的数字多媒体。

Ogg意指一种文件格式，可以纳入各式各样自由和开放源代码的编解码器，包含音效、视频、文字（像字幕）与元数据的处理。

Ogg Theora是一个免权利金、开放格式的有损影像压缩技术，由Xiph.Org基金会开发，该基金会还开发了著名的声音编码技术Vorbis，以及多媒体容器档案Ogg。Theora 是由 On2Technologies 公司专属的 VP3 编码器经过开放源代码后衍生而来。

Google 认为开放标准格式可以成为目前无序的视频格式之争的底线。最后的权益方案不需要最复杂的格式，或者是最大张旗鼓宣传，几乎已成为行业标准的格式，因此他们决定选择支持使用广泛的开源Ogg Theora格式。

2007年，Xiph.Org基金会为了向后兼容的考虑，提出请求，将.ogg只留给Vorbis格式来使用。Xiph.Org基金会决定创造一些新的扩展名和媒体格式来描述不同类型的内容，像是只包含音效所用的.oga，包含或不含声音的影片（涵盖 Theora）所用的.ogv和程序所用的.ogx。

FLAC 是Ogg 无损音频编码

Google在2009年收购了On2 Technologies，并于2010年5月19日在Google I/O会议上宣布将VP8以BSD许可证的形式开源。。VP8是On2 Technologies继VP3之后宣布开源的第二个编解码器。2010年5月19日，WebM启动。WebM包含了来自于Mozilla、Opera、Google以及其他四十多家出版商和计算机软硬件供应商（包括AMD、NVIDIA）的贡献，旨在大力倡导在HTML5中使用VP8

WebM格式以Matroska(MKV)容器格式为基础开发的新容器格式，里面包括VP8视频和Ogg Vorbis音轨

MKV容器格式从技术上来说是对国际化支持最好的一种格式，也是本地化的首选格式。MKV支持多音轨和多字幕轨，多达16条以上（TS也支持多音轨）。

VOB数字视频格式

VOB是DVD Video Object的缩写，意思是DVD视频对象。这是DVD影碟上的关键文件，内含的是电影的实际数据。实际上VOB文件是一种基本的MPEG-2数据流，就是说它包含了多路复合的MPEG-2视频数据流、音频数据流（通常以AC3格式编码）、以及字幕数据流。

VOB是为了在硬件，DVD播放器上能够播放设计的。

TS数字视频格式

TS是日本高清摄像机拍摄下进行的封装格式，全称为MPEG2-TS。ts即"Transport Stream"的缩写。MPEG2-TS格式的特点就是要求从视频流的任一片段开始都是可以独立解码的，ts是日本高清摄像机拍摄下进行的封装格式，全称为MPEG2-TS，用以将视频、音频信息打包方便在有线电视网络、卫星链路、或无线电广播。这个格式最开始是用于广播的。后来它也被用在如数字录影机等场合。简单地说，其他格式的数字视频cut掉（或者是数据损坏数据）就会导致整个文件无法解码，而电视节目是任何时候打开电视机都能解码（收看）的。适用于现代的直播，视频会议等场景。

TS通常以固定码率传输。固定码率传输时，如果上层待传输内容不足，会发送空分组以占位。

现在H264也可以打包成TS格式了。

其他数字视频格式

一些特殊场景下会存在特殊的数字视频格式，例如游戏，VJ等

Smacker视频

Smacker是上一代的编解码器。自1994年以来，它已获得2500多种游戏的许可。在几乎所有情况下，Bink都将更适合现代游戏。但是，我们仍然为旧游戏和CPU受限的环境授予Smacker许可。

Smacker与大多数视频编解码器有很大不同。它是256色（8位）编解码器-它对视频帧使用一个调色板（或一系列调色板）。这既是其最大的优点，也是其最大的缺点。 256色数据使其超快，但也会损害颜色质量（甚至在进行任何压缩之前）。

Smacker仍在教育游戏和简单的Sprite游戏中普遍使用，它们的速度使其具有优势。 640x480分辨率的Smacker电影几乎不需要占用现代CPU的3％进行解码-MP3解码所需的CPU数量比Smacker电影需要的更多！

Bink Video视频

Bink Video文件以bik为后缀名，被广泛的运用于计算机电子游戏(Computer Electronic Game)上，具体表现为开场动画、任务剧情动画以及版权声明动画等等。在14个不同平台上获得14,000多种游戏的许可！

Bink Video2的多核缩放和SIMD设计（在一帧中执行的指令中多达70％是SIMD），因此Bink 2可以比Bink 1快得多。它确实非常快-可以仅使用CPU在4 ms PC和11 ms PS4 / Xbox One中播放4K视频帧（3840x2160）（或者使用GPU加速在1.4 ms PC和2.3 ms PS4 / Xbox中播放）！

Bink 2适用于Windows（所有版本-台式机，商店，UWP），MacOS，Linux，Sony PS4，Sony PS3，Sony PSVita，Xbox One，Xbox 360，Nintendo Switch，Wii WiiU，Android和iOS。

Interplay Video视频

Interplay视频封装在Interplay MVE文件中。它有8位和16位两种版本，可追踪至1990年代中期PC图形功能的发展。

DXV视频格式

DXV3是Resolume Arena VJ Software所使用的一种编码格式

Resolume DXV 视频解码器是一个硬件(GPU)加速解码器。直接通过显示卡GPU来进行帧解压。

由于现今的视频处理器处理效能极大，你可以使用用更高的解像度及帧数率而CPU及RAM的效能也不会过度耗用。

一些过时的数字视频格式

Real数字视频格式

RealVideo是一种影片格式由RealNetworks于 1997年所开发，至2006年时已到RealVideo版本10。它从开发伊始就定位为应用为网络上视频播放上的格式。支持多种播放的平台，包含 Windows、Mac、Linux、Solaris以及某些移动电话。相较于其它的视频编解码器，RealVideo通常可以将视频数据压缩得更小。因此它可以在用56Kbps MODEM拨号上网的条件实现不间断的视频播放。

一般的文件扩展名为.rm/.rvmb，现在广泛流行的是rmvb格式，即动态编码率的real video。

RealVideo早期使用H.263，在RealVideo8及之后公司采用私有或者不公开的视频格式。官方的的播放器是 RealNetworks RealPlayer SP，最新的版本是v16，在多个平台，包括Windows，Macintosh，和Linux中提供。RealNetworks公司同时也开发了开源的 Helix播放器，但是在Helix项目中没有提供RealVideo，因为Real系列的编解码仍是不公开的。

RealMedia文件可以通过RTSP在网络上传输，但是RTSP只用于建立和管理连接，真正的视频数据是通过 Real自己私有的 RDT（Real Data Transport）协议传输。这种方式引起很大的批评，因为难以在其他播放器和服务器中使用RealVideo，现在一些开源项目，例如MPlayer 已经可以播放RDT流。为了支持实时流，RealVideo和RealAudio通常采用CBR（恒定码速）编码，使得每秒传递的数据相等。后来，公司开发了可变码速，成为RealMedia Variable Bitrate（RMVB），提供更高的水平资料，但是这种格式不适合作为流，因为难以预测某个特定的媒体流需要多少网络资源。带有快速移动和场景变化的视频需要更高的码流，如果码流超出网络所能提供的速率，将会引起中断。

RealNetworks公司说RealVideo和RealAudio编解码的源代码不在RPSL的许可内。在许可源代码在不支持的处理器和操作系统的商用移植中许可。虽然公司拥有大多数的知识产权，但是允许第三方为某个特性享有版权。

Flash数字视频格式

Flash Video是一个文件容器格式，是Adobe Flash播放器版本6-10用于在互联网上传递视频。Flash视频内容也可以封装在SWF文件。Flash视频有两种不同的文件格式：FLV和 F4V。FLV文件中，同SWF文件一样音频和视频数据采用相同方式进行编码。晚出现的F4V，它的格式是基于ISO为基础的媒体文件格式，并在 Flash Player 9 update 3中开始得到支持。

Flash视频FLV文件所包含的媒体的编码通常采用Sorenson Spark和VP6视频压缩格式。最新发布的Flash播放器支持H.264视频和HE-AAC音频。

Sorenson编解码看参考以下两种专用的视频编解码：Sorenson Video或者Sorenson Spark。Sorenson Video也被称为Sorenson Codec，Sorenson Video Quantizer或者SVQ。Sorenson Spark也称为Sorenson H.263。这些编解码都是有Sorenson 媒体公司设计（及以前的Sorenson Vision公司）。Sorenson Video在Apple的QuickTime中使用，SorensonSpark在Adobe Flash（以前的MacromediaFlash）中使用。

DivX与Xvid

DivX是由MPEG－4衍生出的另一种视频编码(压缩)标准，也即通常所说的DVDrip格式，它采用了MPEG4 的压缩算法同时又综合了MPEG-4 与MP3各方面的技术，说白了就是使用DivX压缩技术对DVD盘片的视频图像进行高质量压缩，同时用MP3或AC3对音频进行压缩，然后再将视频与音频合成并加上相应的外挂字幕文件而形成的视频格式。其画质直逼DVD并且体积只有DVD的数分之一。这种编码对机器的要求也不高，所以DivX视频编码技术可以说是一种对DVD造成威胁最大的新生视频压缩格式，号称DVD杀手或DVD终结者。

DivX的基础技术是非法盗用微软的，微软声称将对所有推动DivX发展的人、企业进行追究。DivXNetworks成立初衷就是摆脱微软的技术封闭，因而发起一个完全开放源码的项目，名为 “ Projet Mayo ”，目标是开发一套全新的、开放源码的MPEG4编码软件，由于它完全符合ISO MPEG标准，又是完全开放源代码，OpenDivXCODEC吸引了很多软件，视频高手参与，很快便开发出具有更高性能的编码器Encore2等等，就在DivX最辉煌的时期，DXN公司突然封闭了DivX的源代码，并在 Encore2的基础上发布了自有产品DivX4，原来DXN早就给自己留了后门，DivX采取的是LGPL协议，而不是GPL协议，虽说它们都是公共许可证协议，保障自由使用和修改软件或源码的权利，但LGPL允许私有。

接着，很多被DXN公司狠狠涮了一回的软件、视频团体另起门户，逐渐重新聚拢开发力量，高举复仇大旗，在OpenDivX版本基础上，再次开发出一种新的MPEG－4编码--XviD，名字的顺序和DviX刚好相反，仅仅从名字就可以看出Xvid充满了复仇的力量。

视频文件的播放

视频文件的播放过程是一个解码过程，从封装格式（也叫容器，就是将已经编码压缩好的视频轨和音频轨按照一定的格式放到一个文件中）解码释放出来之后进行音视频同步的过程。

常见的主流视频播放器以操作系统厂商为代表的有Windows Media Player和Apple Quick Time

另外还有独立厂商如WinDVD，PowerDVD，Total Media Theatre等

以及给予FFMPEG开源项目的播放器：Mplayer，VLC(video lan)，Media Player Classic

国内和国际大量的播放器也采用了FFMPEG的代码，例如暴风影音，QQ影音，迅雷看看，快播，KMplayer，PotPlayer等

FFmpeg是一个开源免费跨平台的视频和音频流方案，属于自由软件，采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。http://ffmpeg.org/

FFmpeg是基于LGPL/GPL开源的，这意味着如果某软件使用了FFmpeg的代码，那么这个软件涉及这些代码的部分，也必须开源。

视频播放器的功能

播放视频文件	包括通过CD，DVD，蓝光DVD驱动器播放VCD,DVD和蓝光DVD视频
流媒体播放	利用P2P架构，在线播放
缩放	指定尺寸或自定义缩放，全屏幕
调整播放速度	增加减少速率，倒放视频
修正颜色
加载字幕	加载外挂字幕文件
桌面背景播放	XP,Vista下支持，Win7开始引入UAC机制后限制了这个功能
视频转录	截取片段保存为视频文件或者GIF
360度视频
3D视频输出
补帧技术	分析前后数帧的画面，将其中的有效色彩信息提取出来补全到每一帧当中，实现提升色彩表现、清晰度和对比度的目的，可以将低分辨率的视频输出为高清信号

视频文件的编辑

视频文件的编辑又叫做非线性编辑，是一个编码的过程

常见的非线性编辑工具：

Final Cut

EDIUS

Adobe Premiere 和 AfterEffect

Sony Vegas Movie Studio

Corel VideoStudio

Wondershare Filmora

CyberLink PowerDirector

Ulead Media Studio

Windows Movie Maker

达芬奇调色 DaVinci Resolve Studio

红巨人RedGiant VFX

Pro DAD

NewBule

蓝宝石 Sapphire

非线性编辑：

常见的非线性编辑包括：

编码格式转换

调整时间顺序

更换，修改音频、视频、字幕

截取，合并视频片段

调整播放速度，逆时播放

调整颜色，色调，饱和度等

叠加叠印

分屏和画中画

字幕，文字特效

视频抠图，遮罩

镜头修正，白平衡，HDR(高动态范围图像)等

滤镜，模糊，马赛克等视频特效以及标注

转场过渡

作品输出

作品输出是将视频按照编辑指令渲染并压制成制定数字视频格式

作品输出的几个关键点

音频视频输出，文件格式，编码格式，码率，视频帧尺寸等

上场(高场)优先、下场(低场)优先、基于帧

为什么会有上场和下场

一个不停闪烁的光源，如果其频率达到每秒钟50次（也就是所说的频率50Hz），在人眼中他是不闪烁的。我们家里的电灯炮就是一亮一熄的，所以在我们的眼中没有感觉到他是一亮一熄的，是因为频率达到了50Hz。

根据这个原理，最初电视机每秒要传输的图像被定为50帧。认为这样图像在我们眼中才不闪烁。但是根据当时技术上能力，要每秒钟传输50帧图像很难办到。这要根据显像管的工作原理说起。显象管的工作原理是：图像的产生是通过显像

管后部的电子枪向屏幕发射电子，电子撞到屏幕产生亮点。如果屏幕的分辨率为720*576的话，那么电子枪通过偏转线圈的控制从屏幕左上方开始，向右上方移动。一共要发射720个电子，然后向下移动重复576次后到达屏幕的最下方，通过发射电子的强弱来表示象素的亮度，完成一帧图象的传输。这样可以算出来。电子枪每传输一幅图像要发射720*576=414720个电子。如果每秒钟要传输50帧图像的话、那么他的工作频率就是414720*50=2073600/秒。这样高的频率电子枪无法达到。这就是产生上场

和下场的最初的原因——科学家们利用视觉的滞留性，让电子枪不按顺序发射电子，而是每发射一行隔一行，比如先发射奇数行13579,,回头再发射2468,,利用两次扫描来完成一幅图像，因为视觉的滞留性，我们看到的效果是差不多的。这样在图像效果影响不大的情况下，电子枪的工作频率降低了一半，在技术上是可以达到了。这样就出现了所谓的“场”，从而出现“上场优先”“下场优先”。

二、什么是上场优先、什么是下场优先

a:图像的传送

如果把一幅图像分成上下两半，分两次送到我们手里，我们所得到的信息是完整的，重要的是要告诉我先送来的那部份是上面的还是下面的，我才能得正确图象。这就是“上场优先”和“下场优先”的意思。先送上部就是上场优先（1就是奇数、奇数场）。先送下部，就是下场优先（2偶数。偶数场）。如果图像是一个人的全身像，我按正确的顺序摆放后，得到的图像才会是头在上面，脚在下面；如果顺序搞错了，那么就是头和脚在中间。图像的最上方和最下方都是人的腰部。但是在视频中，因为图像的像素高，也就是分成了很多块，虽然顺序放错了，但是它的位移不会偏离的很远，我们肉眼观察不出来，所能发觉的就是有抖动、毛刺等。出现的后果是跟视频的内容有关的。如果视频是单一、纯色的一个画面，那么不管场序正确与否，画面是没有什么不同的；如果是视频中是一个缓慢移动的物体，那么我们看到的可能是有些轻微的抖动,画面有些模糊。如果是一个有激烈运动的视频，那么就可能出现严重的毛刺。因为像素的内容变化大，一但错位，就很明显。

综上所述，一个视频信号在传送时，无论用上场优先还是下场优先都是可以的，重要的是要让接收设备知道所接收的信号是用那种场序，才能把图像正确的显示出来。无论视频是什么场序，播放时都是把视频所包涵的图像按顺序显示出来。唯一不同的是在传送每个单位的图像时是先传奇数场还是偶数场。这就是视频的场序。

b:图像的存储

无论是什么视频，存储时无凝都是把一序列的图片按顺序摆放，但是带有场的视频，它的每一幅图片又分成上场和下场两部分，在一幅图像应该占有的空间里，把上场放在前面还是放在后面。这也就是这个视频的场序问题，把上场放在前面

就是上场优先。如果把这个视频导入编辑软件中，再把项目设置成下场优先，那么软件就把视频的上场当成下场，把下场当成上场，播放时像素发生错位，就出现了异常。我们的DV在拍摄的过程中也是一个存储图像的过程，如果你的DV拍摄方式是下场优先，就是说它先把第一个图像的偶数场的信息记录在磁带的第一个位置上，把奇数场的信息记录在第二个位子上，然后把第二个图像的偶数场放在第三个位置，第二个图像的奇数场的信息放在第四个位置，依次类推,,，在采集的时候就要把软件的项目设成下场优先，也就是告诉软件这个磁带记录信息的方式，无论采集后数据如何存放，它都会把第一个位置采集来的数据当成第一个图像的下场，第二个位置当成上场，这样视频才得已真实的再现，这就是为什么采集时要把软件的场序设成和DV的场序一样的原因。

总结，无论上场优先还是下场优先，只要运动场景回放不抖动就是正确的场序，上场还是下场由录制设备，播放设备共同决定。一般磁带DV采集是下场优先闪存采集是上场优先。

字幕的渲染

字幕从存放位置分为内嵌字幕和外挂字幕，内嵌字幕就是将字幕文件封装在封装格式（容器）文件内，外挂字幕是以独立文件形式存在电脑中，独立文件可以直接编辑修改，内嵌字幕不能直接编辑，但是可以使用专用工具提取出来。

从类型上分图形字幕和文字字幕，文字字幕受编码和字体限制在不同的平台硬件设备表现形式可能不同，达不到最好的表现效果，因此有必要使用图形化字幕，甚至将字幕渲染描绘在图像层（硬字幕）这样无论任何平台，设备都能得到一致的观看体验。

视频版在：视频去哪了呢？_哔哩哔哩_bilibili

文字类型字幕：

格式	说明	规则	样例
SMI	SAMI Captioning SMI是WMP专用字幕文件格式,使用类似HTML的格式记录	<SAMI> <HEAD> </HEAD> <BODY> <SYNC Start=0><P>字幕文本 <SYNC Start=时间码><P> </BODY> </SAMI>	<SAMI> <HEAD> </HEAD> <BODY> <SYNC Start=0><P>Driver On <SYNC Start=5000><P> <SYNC Start=5000><P>变身 <SYNC Start=7000><P> </BODY> </SAMI>
SRT	SubRip SRT文本字幕最为流行，因为其制作规范简单，可以实现简单样式 SDL Trados Studio直接支持	依次是：序号时间码字幕文本 [空行]	1 00:00:00,000 --> 00:00:05,000 Driver On 2 00:00:05,000 --> 00:00:07,000 变身
LRC	LRC常见于显示歌词，硬件支持广泛	[时间码]字幕文本	[00:00.00]Driver On [00:05.00]变身
SST	Sonic Scenarist 和SRT类似	序号开始时间结束时间字幕文本	1 00:00:00:00 00:00:05:00 Driver On 2 00:00:05:00 00:00:07:00 へんしん
SSA & ASS	SubStation Alpha (.ssa) Advanced SubStation Alpha (.ass) SSA是[V4 Styles]而ASS是[V4+ Styles] V4+的代码是基于V4 但是高于V4的而且2个字幕文件内的格式有一定差别	[Script Info] [V4+ Styles] [Events] Format: Dialogue: 时间码样式字幕文本	[Script Info] [V4+ Styles] Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding Style: Default,Arial,20,&H00FFFFFF,&H000000FF,&H00000000,&H00000000,0,0,0,0,100,100,0,0.00,1,2,2,2,10,10,10,1 [Events] Format: Layer, Start, End, Style, Actor, MarginL, MarginR, MarginV, Effect, Text Dialogue: 0,0:00:00.00,0:00:05.00,Default,NTP,0000,0000,0000,,Driver On Dialogue: 0,0:00:05.00,0:00:07.00,Default,NTP,0000,0000,0000,,变身
WebVTT	WebVTT (Web Video Text Tracks)格式和SRT类似但是没有序号用于HTML5	WEBVTT [空行] 时间码字幕文本 [空行] 第一行必须是WEBVTT UTF-8编码	WEBVTT 00:00:01.878 --> 00:00:05.334 曾经有一份真诚的爱情放在我面前， 00:00:08.608 --> 00:00:15.296 我没有珍惜，等我失去的时候我才后悔莫及，人世间最痛苦的事莫过于此
TTML（IMSC）	TTML 全称是 Timed Text Markup Language，是一种基于 XML 的时序文本标记语言。它旨在用于全球范围内的跨字幕和字幕传递应用程序，从而简化互操作性并保持与其他字幕文件格式的一致性和兼容性。	TTML是xml格式的文件根节点是<tt> 和HTML类似但是由于谷歌的去XML计划，浏览器的支持性不是很好	<?xml version='1.0' encoding='UTF-8'?> <tt xmlns='http://www.w3.org/ns/ttml' xml:lang='en' > <body> <div> <p begin="00:00:01.878" end="00:00:05.334" >曾经有一份真诚的爱情放在我面前，</p> <p begin="00:00:08.608" end="00:00:15.296" >我没有珍惜，等我失去的时候我才后悔莫及，<br/>人世间最痛苦的事莫过于此。</p> </div> </body> </tt>

图形字幕最常见的事SUB和IDX，可以通过OCR工具转换成文字字幕

文字型字幕体积很小通常只有几KB，图形字幕一般都很大

SubRip srt格式的字幕是SDL Trados直接支持的文件格式建议使用此格式进行翻译，翻译后再转换为ASS格式应用样式效果

字幕编辑工具

因为字幕文件是基于文本的因此能够进行字幕编辑的软件非常多

Aegisub是一个开源的跨平台字幕工具，可以在不同平台电脑得到一致的体验

Aegisub - Aegisub Advanced Subtitle Editor

字幕通 YeeCaption

中译语通的一站式智能字幕翻译软件，界面易懂，云端识别，自动切轴，智能翻译，使字幕翻译事半功倍，部分功能收费

YEEKIT_智能语言工具平台,在线辅助翻译,翻译工具,字幕通

人人译世界

武汉译满天下原人人字幕组工作平台

人人译视界-精彩不因语言而阻碍

网易见外

网易见外 - AI智能语音转写听翻平台

网易见外由人工智能事业部研发,是一个集视频听翻、直播听翻、语音转写、文档直翻功能为一体的AI智能语音转写听翻平台,致力于用语音识别转写文字、机器翻译等技术

TimeMachine

人人字幕组字幕软件

SubtitleEdit

Nikse.dk

Releases · SubtitleEdit/subtitleedit · GitHub

一款开源的免费字幕编辑工具

SubtitleWorkshop

一款知名的Windows平台免费字幕编辑工具

Home - Subtitle Workshop

Arctime

ArcTime是一款基于Java的跨平台字幕编辑软件

ArcTime Pro跨平台字幕软件 | Arctime字幕软件

多语言语字幕的处理

通常多语言字幕有两种常见的处理方法

第一种是在一个字幕文件中同时写入两个语言

Dialogue: 0,0:04:16.38,0:04:18.82,Default,,0,0,0,,就是乐于助人性格温柔的人\N親切な性格の人を助けることが好きです。

用\N分隔两个语言

这种方法的缺点，不便于设置双语言复合字体，显示效果不佳

不便于本地化处理，对齐翻译记忆库，重用资源

第二种方法是分别建立各自语言的字幕文件，例如zh-CN.ass和en-US.ass

两个文件时间轴部分完全相同，字幕文字不同，拥有各自的样式和字体设置，位置，大小

这种方法更符合本地化流程操作，对齐，制作翻译记忆库，提取术语，重用翻译等。

最后输出的时候可以由播放器（例如PotPlayer）加载主要和次要字幕，也可以使用MeGUI将两个字幕都描绘渲染画面本身

从本地化的角度来看应该使用第二种方案

一些零碎的内容

视频文件信息

视频文件的信息可以通过Media Info查看

MediaInfo

举个例子以下是一个文件的信息输出其中高亮部分应保持不变：

General
Complete name	全名	G:\BaiduYunDownload\04.09机械臂.mp4
Format	格式	MPEG-4
Format profile	格式设定档	Base Media / Version 2
Codec ID	编解码器ID	mp42 (mp42/mp41)
File size	文件大小	453 MiB
Duration	持续时间	3 min 40 s
Overall bit rate mode	整体比特率模式	Variable
Overall bit rate	总比特率	17.2 Mb/s
Encoded date	编码日期	UTC 2018-04-09 00:28:33
Tagged date	标记日期	UTC 2018-04-09 00:28:38
TIM	TIM	00:00:00:00
TSC	TSC	25
TSZ	TSZ	1

Video	视频
ID	ID	1
Format	格式	AVC
Format/Info	格式/信息	Advanced Video Codec
Format profile	格式设定档	[email protected]
Format settings	格式设定	CABAC / 3 Ref Frames
Format settings, CABAC	格式设置，CABAC	Yes
Format settings, Reference	格式设置，参考	3 frames
Codec ID	编解码器ID	avc1
Codec ID/Info	编解码器ID /信息	Advanced Video Coding
Duration	持续时间	3 min 40 s
Bit rate	比特率	16.9 Mb/s
Width	宽度	1 920 pixels
Height	高度	1 080 pixels
Display aspect ratio	显示宽高比	16:09
Frame rate mode	帧率模式	Constant
Frame rate	影格速率	25.000 FPS
Standard	标准	PAL
Color space	色彩空间	YUV
Chroma subsampling	色度二次采样	4:02:00
Bit depth	位深	8 bits
Scan type(Progressive or Interlaced)	扫描类型(逐行扫描或隔行扫描)	Progressive
Bits/(Pixel*Frame)	位/（像素*帧）	0.326
Stream size	流大小	444 MiB (98%)
Language	语言	English
Encoded date	编码日期	UTC 2018-04-09 00:28:33
Tagged date	标记日期	UTC 2018-04-09 00:28:33
Color range	颜色范围	Limited
Color primaries	颜色原色	BT.709
Transfer characteristics	转移特性	BT.709
Matrix coefficients	矩阵系数	BT.709
Codec configuration box	编解码器配置框	avcC

Audio	音讯
ID	ID	2
Format	格式	AAC LC
Format/Info	格式/信息	Advanced Audio Codec Low Complexity
Codec ID	编解码器ID	mp4a-40-2
Duration	持续时间	3 min 40 s
Source duration	源持续时间	3 min 40 s
Bit rate mode	比特率模式	Variable
Bit rate	比特率	317 kb/s
Maximum bit rate	最大比特率	415 kb/s
Channel(s)	频道	2 channels
Channel layout	频道布局	L R
Sampling rate	采样率	48.0 kHz
Frame rate	影格速率	46.875 FPS (1024 SPF)
Compression mode	压缩方式	Lossy
Stream size	流大小	8.35 MiB (2%)
Source stream size	源流大小	8.36 MiB (2%)
Language	语言	English
Encoded date	编码日期	UTC 2018-04-09 00:28:33
Tagged date	标记日期	UTC 2018-04-09 00:28:33

音频编辑

视频编辑离不开音频编辑，以下是音频编辑的一些内容

音频数据通过快速傅里叶变换算法转换为波形图，然后进行所见即所得的编辑

音频编辑包括剪辑，多轨道拼合，音量调整，降噪，人生消除等

音频编辑软件

Audacity是一个免费的跨平台专业音频编辑器，可运行在Windows，Linux和Mac系统，结合Lame和FFMPEG插件，可以支持MP4和AAC音频

Audacity ® | Free Audio editor, recorder, music making and more!

Adobe Audition 简称AU，是Adobe系列中的音频编辑器，Adobe收购了cool edit pro后推出的，Adobe还有一个分支Soundbooth

GoldWave

GoldWave - Audio & Video Editing Software and Fun Games

MAGIX SOUND FORGE

Welcome to MAGIX

CyberLink AudioDirector

视频剪辑软件、影音播放、多媒体整合应用软件解决方案的领导厂商 | 讯连科技

字幕的渲染

DirectVobSub也叫做VSFilter，是最流行的显示字幕工具，可以在影片的播放同时显示中文字幕，并且还有调整字幕时间码、字幕格式转换等功能，可以支援很多种字幕。

Free DirectVobSub 2.5.2.7 : Play movies with subtitles

MeGUI就是通过VSFilter实现将字幕描绘到图像上的。

XY-SubFilter

XySubFilter（XySubFilter.dll）是一种新的高质量字幕插件，它需要兼容的解码器程序来支持新的字幕界面。一般建议madVR 0.87.5+或MPC-HC 1.7.2+（EVR-CP）。

它是在VSFilter2.39版本基础上的一个改进项目，为高清视频设计，效率很高功能强大

https://code.google.com/archive/p/xy-vsfilter/

视频解码器

视频的播放离不开视频解码器，早期一个厂商的视频解码器只能解码一种编码格式，现代的视频解码器都是多功能的，可以解码很多种编码格式。

ffdshow VFW

ffdshow是一款全能的DirectShow解码、编码器，可以解压缩常见的视频格式和几乎所有的音频格式，可支持H.264、FLV、WMV、Xvid、DivX、MPEG-1、MPEG-2以及MPEG-4等格式视频档。它还提供了丰富的加工处理选项，可以锐化画面，调节画面的亮度。ffdshow对rmvb支持非常好

Haali media splitter

Haali media splitter原名是 Haali Matroska Splitter,最开始是设计为MKV的解码器，后期加入了AVI、OGG/OGM、MPEG TS、MP4的支持。是目前公认最好用的Matroska分离器。

Haali Media Splitter

Xvid VFW

Xvid VFW是Xvid专用解码器，支持DivX，Xvid，MPEG4

X264 VFW

x264vfw是著名的x264编码器+ ffh264解码器（来自FFmpeg / Libav项目）的VfW（Windows视频）版本。x264是一个基于H264的免费开源的视频Codec，属于后起之秀，采用x264编解码的视频文件，相比较xvid或者其它流行的编解码器转换效率和转换后的画面质量都更加优异

LAV Filters

LAV Filter是一组开源DirectShow Filter，LAV音频和视频解码器是功能强大的解码器，专注于质量和性能。支持MKV/WebM, AVI, MP4/MOV, TS/M2TS/MPG, FLV, OGG, BluRay (.bdmv and .mpls) 等格式

GitHub - Nevcairiel/LAVFilters: LAV Filters - Open-Source DirectShow Media Splitter and Decoders

madVR

madVR也称为Madshi Video Renderer，不仅仅是一个简单的视频渲染器，是为视频发烧友设计的终极视频解码器。它使用GPU来执行分辨率提升，色度提升以及所有其他可显着改善视频质量的视频增强功能。

madVR支持HDR(高动态范围图像)功能,对于暗画质效果明显。