一、什么是物联网数据?
物联网数据顾名思义是由各种物联网设备、传感器产生的数据。与其他的数据相比,物联网数据具有“大、小、高、底”四个特点:
“大”即物联网数据体量大,我们经常听到的一个经典的案例,即GE发动机有成百上千个传感器,毫秒级频度产生各种数据。一次飞机的飞行就可以超过1TB的数据量。很多工业场景产生的数据量可能会更大。
“小”即物联网数据的价值密度小,或者也可以理解为要从海量的数据中找到价值的信息是一个比较难的事情。
“高”即物联网数据时效性高,设备产生的数据流往往需要及时分析处理,随着时间的流逝,其价值会迅速降低。
“低”即物联网数据的质量通常较低,原因是多方面的,可能跟IoT设备自身能力有关,也可能是较苛刻的设备部署环境,也可能是网络传输问题等等,最终造成物联网数据容易出现丢失,异常,重复等问题。
二、为什么要做物联网数据分析?
如果只是将一堆庞大的物联网数据在一起而不做分析的话,产生不了实际的价值意义,更无法基于数据来开发更多的增值服务。而在物联网的实际应用中,企业可以基于对传感器或物联网设备上报上来的海量数据进行分析,实现物联网设备运营分析、设备运行状态的预测性维护、产品工艺改造等,也可以基于物联网数据分析实现传统人工作业的升级改造,比如,智慧仓储中的智能调度。
然而,通用的 大数据 分析服务由于缺乏针对物联网行业的最佳实践,在技术层面和商业层面都缺少物联网基因,影响物联网数据应用开发效率。因此,华为云IoT数据分析服务应运而生。
三、如何做好物联网数据分析?
首先,构建资产模型是充分“理解”物联网数据的基础。
通过构建物与物,物与空间,物与人等复杂关系,将物联网数据置于模型的“上下文”中去理解。通过“IoT+资产模型”,在数字世界中构建与物理世界准实时同步的数字孪生。基于模型抽象,为数据分析提供面向业务的接口封装。下图举例,将一栋楼映射成数字孪生,通过资产模型创建了大楼内部的组成关系。
其次,物联网数据处理的关键是做好对时序数据的处理。
几乎所有的物联网数据都是时序数据。时序数据具备时间戳(timestamp)、随时间变化的数值(fields)、附加信息(tags)、度量(Measurement)四个关键信息,同时采样周期可能非常频繁,有些甚至可达到毫秒级。
根据时序数据的特点,做好时序数据处理需具备以下几个关键点:
-
高写入性能,每天处理万亿级时间点写入;
-
极低成本,具有针对时序数据的专用压缩算法;
-
高查询性能,能够支撑多节点多线程并行查询,具备向量化查询引擎,同时,高效支持聚合、卷积等时序数据查询模式;
-
海量时间线,最大可支持亿级时间线;
-
边云结合,边缘节点就近部署,快速响应本地查询,数据在边缘侧聚合后再上传云端,降低上云带宽需求。
再次,按物联网数据的时效性分层处理,获得综合处理效率的最大化。
物联网的设备多是实时在线,持续产生数据,有些数据需要实时处理获取数据价值最大化,而有些数据则未必。因此我们在对待物联网数据时,应当有明晰的区别对待。比如将需要实时处理的数据分发到流计算引擎中,而历史数据归档则采用成本低的方式进行存储,如 对象存储 ,而对于近期需要频繁操作的数据,则要考虑如何尽量提高查询效率。
最后,针对较低质量的物联网数据做好清洗环节,为后续分析提供良好数据基础。
在物联网设备数据采集、传输到云端的过程中,可能会由于设备故障、网络链路故障、异常干扰等原因,造成所采集的数据有缺失、异常、重复等现象,需要通过数据插值、修正、去重等方法,对较低质量的物联网数据进行清洗,以获得良好的数据基础。
四、华为云IoT数据分析服务有哪些优势?
华为云IoT数据分析服务是以物联网资产模型为中心的分析服务,具备物联网资产模型感知、一站式开发体验,以及时序数据优化三大优势。
不同于公有云上的通用型大数据相关产品,华为云IoT数据分析服务与物联网资产模型深度整合,同时与华为云物联网相关服务(比如物联网设备接入)无缝对接,为开发者打造一站式数据开发体验,包括物联网数据源的接入,清洗,建模,存储,分析,可视化全流程。其中数据分析引擎包括了流分析和批分析的计算引擎。
华为云IoT数据分析服务提供的资产建模能力,帮助开发者快速搭建和管理模型数据,提供丰富的函数计算能力及便捷的模板建模功能。结合IoT的实时数据采集,帮助实现数字孪生功能。在建模过程中,IoT数据分析服务提供图形化可拖拽方式的开发环境,简化复杂资产模型的开发过程,对于相同的资产可以采用模板方式批量创建。支持UDF(用户自定义函数)能力,用户在创建虚测点过程中可使用比如四则运算,科学计数法,三角函数,滑窗,流计算等函数。
针对物联网数据具备的显著时序特征,华为云IoT数据分析服务在数据存储及数据分析上做了大量的优化。比如按时间线做Hash Partition,所有Shard节点并行写入,单实例支持超10万时间线,最大亿级时间线。通过采用列式存储布局,不同数据类型(如时间类型,浮点型)采用不同压缩算法,相比 开源 OpenTSDB压缩率提升10倍,获得极致压缩率。支持倒排索引,相对开源OpenTSDB查询效率提升10倍以上。另外,IoT数据分析服务还提供时序数据洞察工具explorer,通过丰富图表呈现,快速洞察时序数据特征。