RTC PaaS平台将三分天下，SaaS与PaaS互相渗透将不可避免-华为云

RTC PaaS平台将三分天下，SaaS与PaaS互相渗透将不可避免

新视界 | LiveVideoStack联合创始人、主编包研

编者按：进入到2020 年，COVID-19 给全球带来了前所未有的冲击，全球化的背景下，从学习、工作到娱乐，都不得不搬到网上，RTC（实时音视频）一下子成为了生活的必须品。

三分天下

2020 年的COVID-19 给RTC 市场注入了前所未有的动力。从某RTC PaaS 平台公布的数据看，从2013年成立到2019 年6 月累计客户为801 家，到2020 年6 月增长到1486 家，增长超过85%，不可否认疫情扮演了催化剂的作用。本来，RTC PaaS 市场波澜不惊，但COVID-19 成为左右市场的最大“x 因素”。和其他云服务类似，RTC PaaS 市场的马太效应正在显现，客户向头部企业集中。具体来说，未来市场中的主流RTC PaaS平台将三分天下：

A. PaaS RTC 服务商。依靠先发优势带来的客户、技术、品牌、生态等全方位领先，为自己铸造了足够宽的护城河。但不可否认，依靠单一层次，单一场景的服务很难满足用户更复杂的业务需求，如果不横向扩展业务场景，纵向扩展业务服务层次，被公有云服务商巨头赶上只是时间问题。

B. 公有云。所有的公有云巨头都把多媒体业务视为核心市场，RTC 又是其中的关键。Twitch 刚刚将自己的直播能力通过公有云对外服务，华为也在不断打磨RTC 服务。另一方面，公有云拥有海量客户、资源与技术积淀，虽然在某些单点与RTC PaaS 平台存在差距，但这可以通过人才引进、收购等方式快速补足。但更大的挑战是对用户业务场景的把握，这需要更多时间来试错。

C. 创业团队，细分市场与自生态。一些拥有优秀技术和产品能力的创业团队可能搅动这个市场，在一些细分市场也存在行业壁垒，形成特定的小生态。最后，一些大型应用服务会通过自研来实现部分RTC 能力，比如教育、电商、社交等场景。

当然还有x 因素会对RTC 生态造成影响。这些x 因素包括重大的技术变革、全球经济格局变化与政策法规调整等。

融合技术

所谓融合技术，就是用户只需要一个SDK/API 实现各种通信能力的接入，包括华为在内的国内主流公有云服务商大多采用这一方式。最典型的场景是，用户通过RTMP 接入观看市场，当需要和他人互动是，即可切换到RTC 网络。这样的好处是，既保证的用户体验，又可以最大限度的使用成熟的RTMP 服务，将成本降低。

不过，海外市场与国内大相径庭。海外更主流的是DASH/HLS 以及CMAF/LHLS。

SaaS与PaaS融合

长远看，SaaS 与PaaS 互相渗透将不可避免。最知名的例子就是Zoom，他开始通过SDK 向合作伙伴提供RTC 服务。字节跳动、Bigo、YY 都在摩拳擦掌提供RTC 服务。同样的，PaaS 也会涉足SaaS，比如华为不仅提供RTC 服务，还提供了视频会议平台华为云会议及办公协作软件WeLink。

AI技术融合

AI 技术不断成熟和发展，正在渗透到多媒体技术的方方面面，这一趋势不可抵挡。

· 语音识别与语音合成：从 Siri 到小冰，从智能手机到智能音响，语音识别已经无处不在，无需赘述。而语音合成则是让电脑把文本变成语音，比如Google 开源的Tacotron 已经可以实现99% 的人声还原。你在喜马拉雅或各种影视剧中听到的明星声音将越来越多地通过AI 生成。

· 声纹-人声识别与音乐识别：声音是可以作为身份验证的，但是风险也同时存在，比如有人拿了你的录音去登录你的银行账号。而DNN（深度神经网络）可以掌握更多的声音特征，从而降低风险。而在音乐识别方面则没有那么高风险，但也直接关系到用户的体验，各大音乐App 都集成了相关的功能。

· 回声消除：这是一个所有音频设备必须解决的问题，在多麦克风设备上消除回声相对容易。但在一些低端的Android 设备上，如果只有一个麦克风就需要利用AI 来帮助消除回声，效果非常不错。

· ABR：ABR 即动态码率，其目的是为了解决客户端在不稳定网络下仍能流畅地观看视频，并且最大化的保证画质。ABR 算法需要关注客户端的视频缓存，以及当下的最大带宽，从而去预测未来一段时间提供给该客户端的码率。AI 的出现可以进一步提升ABR 的效果，最著名的要数MIT 提出的Pensieve。

· 图像增强：关于图像增强大家谈的很多，也许你在看一些热门影片的时候已经用到了AI 加持的图像增强技术。比如，将SDR 转换为HDR 视频，视频超分（将720p 变成1080p），每秒30 帧视频变换为每秒60 帧等等。

· 内容理解：AI 内容理解并不限于生成封面图，精彩剪辑，或者只看某个角色的镜头，这在内容推荐、广告平台有帮助。此外，内容理解还能帮助更好地处理视频，比如可以针对不同的视频内容选择不同的Codec，以及相关的编码工具；也可以找到视频中人眼最关注的部分，分配更多的码率，降低不易察觉的画面的码率，在保证用户体验的前提下降低码率。同时，AI 可以把竖版的短视频裁剪成适合横屏播放的内容。

· 画质评估：AI 还能帮助检测视频源片中的瑕疵，比如黑屏，异物遮挡，这可以在后期制作中修剪。同理，AI 也可以帮助发现字幕遮挡关键画面信息的情况，从而调整字幕出现的时间或位置。关于内容理解的应用，Netflix 走在业界前沿，可以多关注。

而且AI 的学习曲线是比较友好的，对于多媒体技术工程师不会构成太大的挑战。将给行业带来巨大的改变。

技术人才分层与人才供给

音视频技术人才大概可分为三大层，五小层：

· 第一大层是制定标准、协议、算法，以及设计架构与优化系统性能的高级人才。这部分人才在市场上供不应求；

· 第二大层为工程实现和能力接入与维护工程师，他们是支撑多媒体应用的主力军，总量将达到百万级。由于需求量巨大，总体上属于供不应求；

· 第三大层为内容生产者，他们是普通的用户，但是可以快速掌握简单的多媒体接入能力；

因此，可以看到在RTC 市场，技术融合是大趋势，云服务巨头将拥有更多资源优势，实时音视频行业的发展，需要加大人才培养的力度。

最后，COVID-19 实现了对用户在多媒体技术能力方面的认知教育。这将在全社会种下技术改变生活的种子，会有更多的创新、创业玩家涌现，也让技术更容易渗透到行业。

上一篇：云视频使能千行百业创新

下一篇：在线协作新常态，政企智能新时代

本期杂志

杂志推荐

第8期

目录

7*24

备案

专业服务

退订

建议反馈

售前咨询热线