WebRTC 的网络拓扑

作者:追风剑情 发布于:2024-8-29 21:21 分类:Unity3d

WebRTC规范主要介绍了使用ICE技术建立P2P的网络连接,即Mesh网络结构。在WebRTC技术的实际应用中,衍生出了媒体服务器的用法。

  使用媒体服务器的场景,通常是因为P2P连接不可控,而使用媒体服务器可以对媒体流进行修改、分析、记录等P2P无法完成的操作。实际上,如果我们把媒体服务器看作WebRTC连接的另外一端,就很容易理解媒体服务器的工作原理了。媒体服务器是WebRTC在服务器端的实现,起到了桥梁的作用,用于连接多个WebRTC客户端,并增加了额外的媒体处理功能。通常根据提供的功能,将媒体服务器区分成MCU和SFU。

1. Mesh 网络结构

  Mesh是WebRTC多方会话最简单的网络结构。在这种结构中每个参与者都向其他所有参与者发送媒体流,同时接收其他所有参与者发送的媒体流。说这是最简单的网络结构,是因为它是WebRTC原生支持的,无须媒体服务器的参与。Mesh网络结构如图1-2所示。

111111.png

  在Mesh网络结构中,每个参与者都以P2P的方式相互连接,数据交换基本不经过中央服务器(部分无法使用P2P的场景,会经过TURN服务器)。由于每个参与者都要为其他参与者提供独立的媒体流,因此需要N-1个上行链路和N-1个下行链路。众多上行和下行链路限制了参与人数,参与人过多会导致明显卡顿,通常只能支持6人以下的实时互动场景。

  由于没有媒体服务器的参与,Mesh网络结构难以对视频做额外的处理,不支持视频录制、视频转码、视频合流等操作。

2. MCU 网络结构

  MCU(Multipoint Control Unit)是一种传统的中心化网络结构,参与者仅与中心的MCU媒体服务器连接。MCU媒体服务器合并所有参与者的视频流, 生成一个包含所有参与者画面的视频流,参与者只需要拉取合流画面,MCU 网络结构如图1-3所示。

222222.png

  这种场景下,每个参与者只需要1个上行链路和1个下行链路。与Mesh网络结构相比,参与者所在的终端压力要小很多,可以支持更多人同时在线进行音视频通信,比较适合多人实时互动场景。但是MCU服务器负责所有视频编码、转码、解码、合流等复杂操作,服务器端压力较大需要较高的配置。同时由于合流画面固定,界面布局也不够灵活。

3. SFU 网络结构

  在SFU(Selective Forwarding Unit)网络结构中,仍然有中心节点媒体服务器,但是中心节点只负责转发,不做合流、转码等资源开销较大的媒体处理工作,所以服务器的压力会小很多,服务器配置也不像MCU的要求那么高。每个参与者需要1个上行链路和N-1个下行链路,带宽消耗低于Mesh,但是高于MCU。

  我们可以将SFU服务器视为一个WebRTC参与方,它与其他所有参与方进行1对1的建立连接,并在其中起到桥梁的作用,同时转发各个参与者的媒体数据。SFU服务器具备复制媒体数据的能力,能够将一个参与者的数据转发给多个参与者。SFU服务器与TURN服务器不同,TURN服务器仅仅是为WebRTC客户端提供的一种辅助数据转发通道,在无法使用P2P的情况下进行透明的数据转发,TURN服务器不具备复制、转发媒体数据的能力。

  SFU对参与实时互动的人数也有一定的限制,适用于在线教学、大型会议等场景,其网络结构如图1-4所示。

33333.png

4. Simulcast 联播

  在进行 WebRTC 多方视频会话时,参与人数较多,硬件设施、网络环境均有差异,这种情况下如何确保会话质量呢?使用 MCU 时,这个问题相对简单一些。MCU 可以根据参与者的网络质量和设备能力,提供不同的清晰度和码率。但是随之而来的问题是服务器资源压力较大,难以支撑大规模并发,同时也显著增加了使用成本。

  多人会话场景选择 SFU 网络结构是目前通用的做法。早期的SFU只是将媒体流从发送端转发给接收端,无法独立为不同参与者调整视频码率,其结果是发送者需要自行调整码率,以适应接收条件最差的参与者。而那些网络环境较好的参与者只能接收相同质量的媒体流,别无选择。

  Simulcast 技术对SFU进行了优化,发送端可以同时发送多个不同质量的媒体流给接收端。SFU能够依据参与者的网络质量,决定转发给参与者哪种质量的媒体流。

  因为发送者需要发送多个不同质量的媒体流,所以会显著增加发送设备的载荷,同时占用发送者上行带宽资源。

5. 可伸缩视频编码

  可伸缩视频编码(Scalable Video Coding,SVC)是Simulcast的改进技术。它使用分层编码技术,发送端只需要发送一个独立的视频流给SFU,SFU根据不同的层,解码出不同质量的视频流,并发送给不同接收条件的参与者。

  SVC中多个层次的媒体流相互依赖,较高质量的媒体数据需要较低质量的媒体数据解码。SFU接收到SVC编码的内容后,根据客户端的接收条件选择不同的编码层次,从而获得不同质量的媒体流。

  如果媒体流包括多个不同分辨率的层,则称该编码具有空间可伸缩性;如果媒体流包含多个不同帧率的层,则称该编码具有时间可伸缩性;如果媒体流包含多个不同码率的层.则称该编码具有质量可伸缩性。

  在编码空间、时间、质量均可伸缩的情况下,SFU可以生成不同的视频流,以适应不同客户端的接收条件。

标签: Unity3d

Powered by emlog  蜀ICP备18021003号-1   sitemap

川公网安备 51019002001593号