“热带雨林”

一个AI开发平台是怎么保护热带雨林的?

华为云ModelArts热带雨林


“科技理应普济天下”,近日华为副董事长胡厚崑在华为全球分析师大会上表达了这一观点,并宣布华为推出Tech4ALL计划,主要围绕联接、应用和技能三个方面来开展,希望在接下来的5年里,让全球再多5亿人从数字技术里受益,最终实现让科技普济天下。

“AI makes it possible”

眼下就有一个实际的例子,让我们看看华为是如何从联接、应用和技能三个维度达到目标的。 

热带雨林无疑是地球赐予地球上所有生物最为宝贵的资源之一,超过25%的现代药物是由热带雨林植物所提炼,热带雨林也由此被称为“世界上最大的药房”。同时,众多雨林植物的光合作用对于净化地球空气的能力尤为强大,其中仅亚马逊热带雨林产生的氧气就占全球氧气总量的1/3,故有“地球之肺”的美誉。

但让人警惕的是,世界热带雨林的面积在剧减,甚至有预言2030年世界将再无热带雨林。人类大量砍伐是一部分原因,使得雨林面积减少,从而导致生物多样性的降低,形成负面循环。

好在保护力量一直在行动。RFCx就是其中一个热带雨林保护组织。2014年,物理学家和软件工程师Topher White创立了非政府组织、雨林保护项目——Rainforest ConnectionRFCx,总部设在加州旧金山,致力于帮助保护世界免受非法砍伐和非法偷猎。他们的生态系统和联接方式非常符合华为的品牌愿景——构建万物互联的智能世界。目前Rainforest Connection已在10个国家部署,保护森林面积超过2000平方公里。

其实,在华为云进入这个项目之前,他们已经用上了华为手机做联接——通过将大量回收的旧手机升级改造为太阳能雨林监听设备,分散部署在丛林深处。无论大雨倾盆、艳阳高照或终日潮湿,一旦监测系统发现盗伐异响,如电锯或卡车声,便会第一时间告警,将具体盗伐定位推送给当地的护林员,帮助他们快速进行搜查。

手机做联接,数据收集到云上作分析,分析之后的结果下发到工作人员,新技术让过去巡林员似的工作大大简化,效率提高。雷锋网还了解到,其实几年前RFCx设计检测声音方案的时候,他们测试了几个品牌的智能手机,最后选择了华为高品质智能手机。

不过,监听设备只负责收集声音,而声音的识别和处理就需要用到AI。在华为云到来之前,在RFCx系统中使用的链锯模型是RFCx工程师用TensorFlow搭建而成,团队中必须有人知道如何编写代码,并设置环境来使用TensorFlow构建和部署AI模型,尽管复杂,但是总是开了个头。

可以想象的是,如果没有AI,2000平方公里要花费多少人力物力去分辨各种类型的声音,这根本是不可能完成的任务,AI的价值就体现在这里。

Huawei makes it easier

RFCx和华为云从今年初开始合作。目前,双方正在合作优化RFCx现有的声音模型,并在华为云AI技术和解决方案的帮助下,构建能够检测和分析蜘蛛猴叫声的智能模型。 

蜘蛛猴是热带雨林中的一类濒危物种,被列入《世界自然保护联盟》2008年濒危物种红色名录ver 3.1。然而,热带雨林的濒危物种还有很多,每一种声音的识别都是复杂的,在不同的干扰环境下要让AI识别率提高,都需要做不同的优化层,复杂度大大提高,如果只靠工程师一个一个优化,工作量将非常巨大。

image.png

在ModelArts平台上对采集到的蜘蛛猴声音进行测试

可以说,华为云一站式AI开发平台ModelArts完美地解决了这一问题。工程师使用华为云ModelArts不需要编码,不需要机器学习知识,甚至不需要设置环境,而只需要使用UI向导来上传声音数据,标记有链锯的声音,然后单击一次来训练模型,再将模型部署到生产环境中。

类比来说,使用TensorFlow编写代码就像雇佣木匠来制作家具,而使用ModelArts 自动学习就像购买可以DIY的宜家家具。对于RFCx来说,DIY解决方案是非常重要的,因为链锯声监测只是众多雨林保护场景之一,他们可以将ModelArts的自动学习功能应用于所有其他声音分类场景。

雷锋网了解到,利用ModelArts自动学习声音分类功能对RFCx提供的链锯数据(2000秒链锯声音数据和20000秒其他雨林声音数据)进行训练,得到了0.993的精度和0.955的查全率,结果比RFCx目前使用的人工调优模型还要好。 

AI已经初步在雨林保护中施展拳脚,下一步华为云和RFCx计划将优化后的链锯模型很快部署到RFCx实时监控系统中。而蜘蛛猴的场景更为复杂,华为云和RFCx正在收集更多的数据来训练声音识别模型,预计将于今年年中在系统上部署。2019年,RFCx的目标是保护6000平方公里的森林,其中4000平方公里的新林区正在等待保护。

ModelArts自我修养”

ModelArts——华为云从芯片(Ascend)、服务器(Atlas Server)、计算通信库(CANN)到深度学习引擎(MindSpore)和分布式优化框架(MoXing),形成一个全栈优化的AI开发平台。

作为一个优秀的AI开发平台,ModelArts应该具备什么要素?简单来说包括以下几大功能:

         数据治理:支持数据筛选、标注等数据处理,提供数据集版本管理,特别是深度学习的大数据集,让训练结果可重现。

         极“快”致“简”模型训练:自研的MoXing深度学习框架,更高效更易用,大大提升训练速度。

         云边端多场景部署:支持模型部署到多种生产环境,可部署为云端在线推理和批量推理,也可以直接部署到端和边。

         自动学习:支持多种自动学习能力,通过“自动学习”训练模型,用户不需编写代码即可完成自动建模、一键部署。

         可视化工作流:使用GES(图引擎服务)统一管理开发流程元数据,自动实现工作流和版本演进关系可视化,进而实现模型溯源。

         AI市场:预置常用算法和常用数据集,支持模型在企业内部共享或者公开共享。

ModelArts可应用于多种业务场景,包括图像识别、视频分析、语音识别、产品推荐、异常检测等。每种场景都可以具体细分,与华为云的各项能力无缝衔接,比如统一身份认证服务、对象存储服务、云容器引擎、批处理服务和图引擎服务等。

在全球人工智能领域最权威的竞赛之一——斯坦福DAWNBench最新的榜单中,ModelArts获得图像识别总训练时间和推理性能榜单的双料冠军,可谓一战成名。

image.png

在训练性能方面,华为云 ModelArts 用128块 V100 GPU,在 ResNet50_on_ImageNet(93%以上精度)上训练模型,训练时间为4分08秒,打破了自己2018年12月的9分22秒纪录,比fast.ai 在 AWS 平台上的训练速度快4倍。

在推理性能方面,华为云 ModelArts 识别图片的速度是亚马逊的4倍、谷歌的9倍。

在模型训练部分,ModelArts通过硬件、软件和算法协同优化来实现训练加速,尤其在深度学习模型训练方面,华为将分布式加速层抽象出来,形成一套通用框架——MoXing(“模型”的拼音,意味着一切优化都围绕模型展开)。

如今,云上AI的竞争逐渐成为一个焦点,从底层硬件到上层计算引擎、再到更上层的分布式训练框架及其优化算法多方面协同优化的ModelArts,全栈能力让用户训练成本降到最低,性能提高。未来,华为云将在更多业务场景落地AI服务,既包括商业应用,也包括更广范围的AI应用需求,就像这次用AI保护热带雨林。