电脑技术学习

网路多媒体传输技术面面观

dn001
多媒体内容数量(Multimedia content) 的快速成长,促使相关的多媒体通讯技术受到政府与产业界极大的关注。本文除了介绍多媒体传输技术之外,也将简单介绍目前的视讯、音讯与影像的压缩编解码标准。


随着网际网路基础架构的建设更加完善、除了透过网路传输资料的传统服务(如:Email、FTP、WWW、Gopher)之外,在网路上浏览多媒体内容的需求也开始激增,例如阅读电子书、收听mp3音乐、图片欣赏、观赏广告片段、收看实况转播节目等等。

所谓多媒体,就是将声音、影像、动画、文字、以及视讯等不同媒体,利用电脑技术将其数位化,并以结构化方式结合、呈现。由于网路传输的速率有限,且由众多使用者共同分享使用,多媒体内容必须先经过压缩、编码处理来减少资料量。目前国际上已有一些针对各种媒体所定的编解码标准,包括视讯、音讯、影像及多媒体通讯协定等,都是根据其应用层面所制定。

在网路上传递多媒体内容的主流技术就称为多媒体串流 (Multimedia streaming) 技术,其传输特点是,预先下载少许资料后即可于下载的同时进行播放动作,对容量庞大的影音资料传输有极大的适用性。它也可以避免多媒体内容以档案的形式传播所造成的版权问题,也方便使用者不必下载整个档案,解决了多媒体内容占用额外储存空间及下载时间等问题。因而促成了随选视讯 (Video-on-Demand, VoD) 与网路电视广播 (Net TV) 等应用的普及。

然而,串流技术常会受到网路频宽变动(Bandwidth variation)、传输延迟急剧变化(delay jitter)及封包遗失(packet loss)等问题的影响,而大幅降低收看或收听的品质,国内外有许多研究人员针对这个问题提出各种解决方法,分别从多媒体内容压缩、编、解码与网路传输的服务品质(Quality of Service, QoS)两方面来考量。

网路多媒体传输之系统架构

网路多媒体传输系统包含四个基本的组成部分:多媒体内容、串流伺服器、网路媒介及使用端设备。其基本运作流程为:使用者利用使用端设备向串流伺服器发出要求,串流伺服器依要求选取适当的多媒体内容,并透过网路传递给使用端设备,再由使用端设备进行解压缩之后播放出来。多媒体内容可以被事先压缩或即时压缩,以随选视讯服务为例,其多媒体内容为事先压缩编码,而网路实况转播服务的内容则为即时压缩编码。

封包传输

多媒体内容被串流伺服器传送前,须先做适当的切割,并包装成为RTP (Real-time Transmission Protocol) 封包 (Packet),接着利用UDP (User Datagram Protocol) 与IP (Internet Protocol) 传输协定依序传送到网路上。封包传输时可能因网路壅塞而遗失,或受到延迟,封包遗失及封包延迟时间过长皆会影响多媒体内容播放的品质,因此多媒体串流系统中含有应用层服务品质控制 (Application-layer QoS control) 机制,来避免或减轻品质下降。

服务品质控制

应用层服务品质控制机制包含壅塞控制 (Congestion control) 与错误控制 (Error control)。壅塞控制能防止封包遗失及减少延迟时间;错误控制则可减轻因封包遗失所造成的品质下降问题。当封包到达使用端设备时,会先在解码前经过应用层,将其中的各个媒体分离出来,分别传给对应的媒体解码器进行解码,随后即播放多媒体资料,播放时则必须考虑到各个媒体之间的时序同步,例如视讯的内容需要和声音同步。



网路多媒体传输之相关标准与发展现况

视讯编/解码的国际标准

视讯压缩是一种信号处理技术,将视讯中冗余及不可区分的部分除去,其处理过程可称为「视讯编码」,反向则称为「视讯解码」。制定视讯编解码国际标准的组织有ITU-T (International Telecommunication Union Telecommunication Standardization Sector) 及ISO (International Organization for Standardization/International Electrotechnical Commission),针对不同的应用和需求制定各种视讯编解码标准。

MPEG工作小组

ISO/IEC的Moving Picture EXPerts Group (MPEG) 工作小组制定了一系列标准应用在不同场合,如MPEG-1应用在VCD产品、MPEG-2应用在数位电视(Digital TV)的机上盒(Set-Top-Box)与DVD产品,MPEG-4则锁定在网路多媒体与互动式多媒体相关应用,加入许多新观念和技术;提供编码工具的观念,来支援不同功能;增加错误修补功能,来因应传输错误所造成的资料损毁,并答应虚拟物件和真实影像物件的混合编码(Synthetic & Natural Hybrid Coding; SNHC)。上述这些新技术使MPEG-4能达成高效率的压缩,同时增加内容导向的互动式操作功能。值得一提的是MPEG-x 并不单只做视讯编码的标准,也规范了音讯以及同步化的处理。




H.261与H.263

另一方面,ITU-T的专家也制定了一系列标准。其中H.261是针对在ISDN上应用的视讯会议系统标准,又被称为「p×64 codec (p = 1~30)」,因为其传输速率为ISDN中B通道的整数倍,而一个B通道有64kb/s的容量。H.263/H.263+/ H.263++ 则是针对极低位元率(<64kbps)所发展的视讯编解码(very low bitrate video coding)标准,让视讯讯号可以在传统的电话网路及无线网路上传送。基本上,H.263的架构与H.261很相似,但因为视讯编解码技术的进步,H.263应用了半像素(half-pel)运动估测技术及四种新的编码选项,使其比H.261的效能高出许多,以相同的压缩比用于<64kbps ,可提升3~4dB之画面品质。

H.264

由ITU-T VCEG与ISO/IEC MPEG共同组成的Joint Video Team (JVT)所制定的视讯压缩标准H.264在2003年5月完成最后的国际标准草案,它又名为MPEG-4 AVC。H.264/AVC的主要目标在发展一套高效能、具有网路亲和性(Network-friendly)及抗误性(error resilience)能力的视讯压缩技术,以提供从行动电话到高画质电视(HDTV) 的广泛应用。H.264/AVC主要能大幅改进速率-失真效率(rate-distortion efficiency),相较于MPEG-2、H.263+ (Annexes DFIJT)或MPEG-4 Advanced Simple Profile,在相似的视讯压缩品质下可节省约50%以上的位元率(bit-rate)。



语音、音讯编解码国际标准

语音编解码技术以PCM (Pulse Code Modulation)为滥觞,用于传统电话网路,它是以简单的取样(sampling)与量化(quantization) 将类比语音转换成数位资料,最常见的位元率为每秒64仟位元。由于它的简单,所以被广泛地采用。CCITT(International Telephone and Telegraph Consultative Committee)将其制订为标准,称为CCITT G.711。从64 Kbps PCM开始,各种语音编解码技术不断推陈出新,发展趋势是往更低的位元率推进,如ITU-T所制定的一系列标准 G.721、G.723、G.726、G.727、G.728、G.729等等,便分别使用不同的编解码技术,来产生不同的位元率的数位语音资料。

视讯与语音资料多为并存

因应影音通讯所需,视讯与语音、音讯通常是并存的,这也影响到许多标准的设计考量。较具代表性的是ISO/IEC所制定的MPEG-1、MPEG-2、MPEG-4,及ITU-T所制定的H.320、H.324、H323等标准,包含视讯标准并搭配各自的语音或音讯标准。MPEG-1规范了三层的音讯编解码标准,相关产品如MP3。随后制定的MPEG-2音讯标准与MPEG-1相容,并新增取样率的选择、位元率的选择、新的位元分配表。而后在西元1995年,MPEG工作小组投入制订MPEG-4,带动音讯编解码技术的蓬勃发展。而美国杜比公司则发展出AC-1、AC-2、AC-3 等音讯编解码技术,其中AC-3更成为美国国家标准,用于DVD的应用上。表一是目前主要商用音讯编码标准的比较。

影像编/解码国际标准

PCX、TGA、TIFF、GIF、JPEG及VQ都是常见的影像压缩格式。PCX、TIFF及TGA 是非常传统而着名的影像储存格式,GIF 及JPEG 则是目前网路应用上最广泛的影像压缩格式。其中JPEG (Joint Photographic Experts Group) 是ISO和ITU-T共同建立的数位影像压缩标准,JPEG 2000则是目前最新的国际标准,主要用于静态影像压缩。

JPEG最受欢迎

JPEG将影像资料中较不重要的部份去除,仅保留重要的资讯,以达到高压缩率的目的。虽然影像会有失真,但JPEG提供参数来控制失真比例。一般而言,当压缩率 (即压缩过后所减少的资料量除以原有资料量) 在5% ~15% 之间时,影像依然能维持适当品质,这是一般无失真压缩法所做不到的。JPEG 的压缩率高,但影像品质为人所接受,因此成为目前最受欢迎的压缩方法之一。它能应用于压缩全彩或是8 位元的灰阶影像,凡是照片或是色彩连续的影像都非常适合利用JPEG 来压缩。

JPEG-2000前景佳

相较于JPEG,JPEG-2000应用小波(wavelet)编码技术, 除了在压缩效率上显着进步,也增加不少新功能,例如感爱好区域编码(region-of-interest coding)、多重解析度呈现、较强之抗误性(error resilience)、内嵌式位元流(embedded bitstream)、随机码流存取及处理(random codestream Access and processing)等。

图四为JPEG-2000和JPEG以两种不同编码位元率所做的画质比较。目前JPEG-2000的成本仍远较JPEG为高,在高位元率的应用上,画质的改善也没有十分显着,因此数位相机产品仍以JPEG压缩技术为主。但JPEG-2000所压缩的影像在网路传送的特性远较JPEG为优,在未来可望取代JPEG在网路影像传输之地位。

多媒体通讯协定与标准

多媒体内容在网路上传输所采用的通讯协定大致为:网路层协定 (IP)、传输协定 (包含UDP、TCP、RTP和RTCP)及会谈期间控制协定 (包含RTSP和SIP)。IP (Internet Protocol) 协定提供基本的网路服务,例如定址服务。传输协定提供串流应用的传送端与接收端之间的网路传输功能,其中UDP和TCP属于传输层协定,而RTP和RTCP属于较上层的协定。会谈期间控制协定规范了在会谈期间控制多媒体资料传递的讯息的格式。

目前网路上最为普及的传输协定为TCP/IP,使用TCP传输资料时,若网路实体层都处正常状态,将可保证封包顺序正确、封包不遗失,并使用AIMD机制调节传送速率动作,提高传输正确率。这些特性对电子邮件传输、网页浏览或档案传输的应用都显得十分重要,然而对即时的多媒体串流资料而言,却可能为了确保品质而牺牲了播放的流畅性。


如图五所示,多媒体通讯通常架构在UDP/IP上的应用层协定-RTP,多媒体资料经由RTP层分割,并包装成为RTP封包,内含有序号、时序与同步资讯。RTP封包在经过UDP和IP层后,被封装成IP封包,经由网路传送至目的地,接收方则以相反的流程解码出多媒体资料,再由解码器进行解压缩。而负责控制讯息的RTCP和RTSP封包则是在TCP层封装,然后送到IP层。



RTP的用途

RTP (Real-time Transport Protocol) 是用来提供即时应用的网际网路传输协定,其主要工作是在封包传送前加上序号(sequence number)与时间戳记(time stamp),以提供客户端缓冲器重组封包顺序以及侦测封包遗失使用。RTP虽为即时传输协定,但并不保证传输品质。若为达到品质控管,势必要有一个回馈机制。

传递控制讯息的协定

为达品质控管,RTCP (Real-Time Control Protocol)随着RTP的运作,统计封包接收状况,将之回馈给通讯的传送方与接收方,以调整传送速率或改变位元流资料,来达到QoS控制的目的。

另一个传送控制讯息的协定为RTSP (Real-Time Session Protocol),为Netscape与Real Network两家公司所引入的标准,其协定类似HTTP运作机制,主要用来与伺服器交换讯息,例如指定开始播放某个串流资料、改变节目播放点、或是提供类似VCR的多媒体播放控制命令,如停止、暂停或回复播放、快速前播放及快速逆播放等控制命令。

SIP(Session Initiation Protocol)的功能类似RTSP协定,也能建立或终止会谈(session)。非凡的是,SIP能够支援使用者的行动性需求,藉由代理机制将讯息重新导向到使用者目前的位置。

交谈式多媒体通讯标准

ITU-T也针对交谈式多媒体通讯应用(例如视讯电话及视讯会议),分别订定了H.324及H.323通讯协定标准,H.324应用于电路交换网路,如传统电话及ISDN网路,H.323则应用于封包交换网路,如IP-based网路。

H.323为IP网路电话(voice over IP; VOIP)的通用国际标准之一,其通讯协定堆叠如图六所示,包含可供选用之视讯编码标准(H.261及H.263)、音讯编码标准(G.711、G.722、G.723.1、G.728及G.729) 、数据通讯标准(T.12x)及其他传输控制、治理协定(H.225、H.245、RAS、RTCP)。其中影音视讯的传输架构于UDP/IP,而数据传数及控制资讯则经由TCP/IP进行通讯。



网路多媒体内容检索与传输

MPEG-7

除了上述的网路通讯协定外,ISO/IEC MPEG也制定两个国际标准来支援网路多媒体的应用,一个是MPEG-7,另一个是MPEG-21。MPEG-7正式名称为 "Multimedia Content Description Interface",它是用某种程度的资讯意义来描述多媒体内容资料,让多媒体内容的描述资料能够被装置或被电脑程式读取。MPEG-7提供完整的视、音讯Description Tools集合,使用这些Description Tools来建立对多媒体内容的描述,能让应用程式更有效率地存取多媒体内容。



MPEG-21

MPEG-21正式名称为 "Multimedia Framework",其目的是建立一个具规范且开放的多媒体传输平台,让所有的多媒体播放装置都能透过此平台接收多媒体资料,使用者可以利用各种装置、透过各种网路环境去取得多媒体内容,而不需要知道多媒体资料的压缩方式及使用的网路环境。同样地,多媒体内容提供者或服务业者也不会受限于使用者的装置及网路环境,针对多种不同压缩方法来提供多媒体内容。

多媒体影音的多元未来 多媒体资料透过网际网路传输到家庭用户的市场需求性已逐渐浮现,以视讯点播系统(Video On Demand; VOD)为例,目前已有数个商业产品问世,像是Microsoft 的 NetShow、Progressive Network 公司的 RealVideo、VDOnet 公司的VDOLive、及伊利诺大学 spin-off 的 Vosaic 等,但仍有许多改善的空间。至于多媒体串流则有三大串流软体公司提供软体,包括Real Network的Real Player、Apple的QUCiktime Player与Microsoft的Media Player。

电脑多媒体可望逐渐取代传统媒体,成为资讯传达和人际沟通的新观念与新作法,许多相关的技术应用如虚拟实境(Virtual Reality)、远距教学(Distance Learning) 、随选视讯(VOD;Video On Demand),公开讨论区(Internet Chatting),电子布告栏(BBS)、电子视讯会议(Video Conference)、影像电话(Video Telephone) 、多媒体短讯(Multimedia Short Message)等等,都是建构网际网路全球资讯网的重要沟通方式,不仅让资讯的呈现方式更为活泼,也让网路多媒体的服务无所不在。