编者按:进入到2020 年,COVID-19 给全球带来了前所未有的冲击,全球化的背景下,从学习、工作到娱乐,都不得不搬到网上,RTC(实时音视频)一下子成为了生活的必须品。
三分天下
2020 年的COVID-19 给RTC 市场注入了前所未有的动力。从某RTC PaaS 平台公布的数据看,从2013年成立到2019 年6 月累计客户为801 家,到2020 年6 月增长到1486 家,增长超过85%,不可否认疫情扮演了催化剂的作用。本来,RTC PaaS 市场波澜不惊,但COVID-19 成为左右市场的最大“x 因素”。和其他云服务类似,RTC PaaS 市场的马太效应正在显现,客户向头部企业集中。具体来说,未来市场中的主流RTC PaaS平台将三分天下:
A. PaaS RTC 服务商。依靠先发优势带来的客户、技术、品牌、生态等全方位领先,为自己铸造了足够宽的护城河。但不可否认,依靠单一层次,单一场景的服务很难满足用户更复杂的业务需求,如果不横向扩展业务场景,纵向扩展业务服务层次,被公有云服务商巨头赶上只是时间问题。
B. 公有云。所有的公有云巨头都把多媒体业务视为核心市场,RTC 又是其中的关键。Twitch 刚刚将自己的直播能力通过公有云对外服务,华为也在不断打磨RTC 服务。另一方面,公有云拥有海量客户、资源与技术积淀,虽然在某些单点与RTC PaaS 平台存在差距,但这可以通过人才引进、收购等方式快速补足。但更大的挑战是对用户业务场景的把握,这需要更多时间来试错。
C. 创业团队,细分市场与自生态。一些拥有优秀技术和产品能力的创业团队可能搅动这个市场,在一些细分市场也存在行业壁垒,形成特定的小生态。最后,一些大型应用服务会通过自研来实现部分RTC 能力,比如教育、电商、社交等场景。
当然还有x 因素会对RTC 生态造成影响。这些x 因素包括重大的技术变革、全球经济格局变化与政策法规调整等。
融合技术
所谓融合技术,就是用户只需要一个SDK/API 实现各种通信能力的接入,包括华为在内的国内主流公有云服务商大多采用这一方式。最典型的场景是,用户通过RTMP 接入观看市场,当需要和他人互动是,即可切换到RTC 网络。这样的好处是,既保证的用户体验,又可以最大限度的使用成熟的RTMP 服务,将成本降低。
不过,海外市场与国内大相径庭。海外更主流的是DASH/HLS 以及CMAF/LHLS。
SaaS与PaaS融合
长远看,SaaS 与PaaS 互相渗透将不可避免。最知名的例子就是Zoom,他开始通过SDK 向合作伙伴提供RTC 服务。字节跳动、Bigo、YY 都在摩拳擦掌提供RTC 服务。同样的,PaaS 也会涉足SaaS,比如华为不仅提供RTC 服务,还提供了视频会议平台华为云会议及办公协作软件WeLink。
AI技术融合
AI 技术不断成熟和发展,正在渗透到多媒体技术的方方面面,这一趋势不可抵挡。
· 语音识别与语音合成:从 Siri 到小冰,从智能手机到智能音响,语音识别已经无处不在,无需赘述。而语音合成则是让电脑把文本变成语音,比如Google 开源的Tacotron 已经可以实现99% 的人声还原。你在喜马拉雅或各种影视剧中听到的明星声音将越来越多地通过AI 生成。
· 声纹-人声识别与音乐识别:声音是可以作为身份验证的,但是风险也同时存在,比如有人拿了你的录音去登录你的银行账号。而DNN(深度神经网络)可以掌握更多的声音特征,从而降低风险。而在音乐识别方面则没有那么高风险,但也直接关系到用户的体验,各大音乐App 都集成了相关的功能。
· 回声消除:这是一个所有音频设备必须解决的问题,在多麦克风设备上消除回声相对容易。但在一些低端的Android 设备上,如果只有一个麦克风就需要利用AI 来帮助消除回声,效果非常不错。
· ABR:ABR 即动态码率,其目的是为了解决客户端在不稳定网络下仍能流畅地观看视频,并且最大化的保证画质。ABR 算法需要关注客户端的视频缓存,以及当下的最大带宽,从而去预测未来一段时间提供给该客户端的码率。AI 的出现可以进一步提升ABR 的效果,最著名的要数MIT 提出的Pensieve。
· 图像增强:关于图像增强大家谈的很多,也许你在看一些热门影片的时候已经用到了AI 加持的图像增强技术。比如,将SDR 转换为HDR 视频,视频超分(将720p 变成1080p),每秒30 帧视频变换为每秒60 帧等等。
· 内容理解:AI 内容理解并不限于生成封面图,精彩剪辑,或者只看某个角色的镜头,这在内容推荐、广告平台有帮助。此外,内容理解还能帮助更好地处理视频,比如可以针对不同的视频内容选择不同的Codec,以及相关的编码工具;也可以找到视频中人眼最关注的部分,分配更多的码率,降低不易察觉的画面的码率,在保证用户体验的前提下降低码率。同时,AI 可以把竖版的短视频裁剪成适合横屏播放的内容。
· 画质评估:AI 还能帮助检测视频源片中的瑕疵,比如黑屏,异物遮挡,这可以在后期制作中修剪。同理,AI 也可以帮助发现字幕遮挡关键画面信息的情况,从而调整字幕出现的时间或位置。关于内容理解的应用,Netflix 走在业界前沿,可以多关注。
而且AI 的学习曲线是比较友好的,对于多媒体技术工程师不会构成太大的挑战。将给行业带来巨大的改变。
技术人才分层与人才供给
音视频技术人才大概可分为三大层,五小层:
· 第一大层是制定标准、协议、算法,以及设计架构与优化系统性能的高级人才。这部分人才在市场上供不应求;
· 第二大层为工程实现和能力接入与维护工程师,他们是支撑多媒体应用的主力军,总量将达到百万级。由于需求量巨大,总体上属于供不应求;
· 第三大层为内容生产者,他们是普通的用户,但是可以快速掌握简单的多媒体接入能力;
因此,可以看到在RTC 市场,技术融合是大趋势,云服务巨头将拥有更多资源优势,实时音视频行业的发展,需要加大人才培养的力度。
最后,COVID-19 实现了对用户在多媒体技术能力方面的认知教育。这将在全社会种下技术改变生活的种子,会有更多的创新、创业玩家涌现,也让技术更容易渗透到行业。