Appen MatrixGo 高精度数据标注配套服务-
版本: V1.0 | 交付方式: 人工服务 |
适用于: Windows/Linux/其他 | 上架日期: 2022-02-14 10:45:04 |
1)目标物体识别
通过拉框/打点/折线、和选择属性的方式,在2D图片上进行目标物体标注。可输出单帧或视频追踪方式,形成动态轨迹制作。目标物体识别是自动驾驶非常重要的一个环节。通过多角度摄像头同时传输数据图像,并通过识别算法对周围环境的物体进行识别,可以对物体的行驶轨迹、位置、方向等进行判断。
构建这一数据资产的团队通常会遇到以下难点:
1. 数据清洗:数据样本具有多样性,需要根据道路环境的复杂程度、数据清晰度、人物的环境背景等进行数据清洗。
2. 数据的清晰度:清晰度一定程度上会对目前物体产生干扰。图像的曝光度,模糊程度,远近距离等都是干扰数据训练和构建数据资产的难点。
3. 质量要求苛刻:对数据标注的准确度有98%的基础质量要求。另外复杂多样的道路环境,从城市到农村、白天到黑夜的路况差异,客观上要求标注人员对各类交通基础有特定的掌握,也要对各类复杂路况有量化分析的能力。
4. 团队规模大,流程复杂:很多项目都需要大型团队协同工作才能快速交付海量数据。标注员提交的数据如果有质量问题,需要质检员提供质检意见并打回修改。一条数据从首次标注到成功交付可能会多次重复这个过程。团队要在这样的过程和验收人员协同,做到有条不紊。另外数据量因为受到采集的影响会不稳定,突然起量和突然断流的情况都很常见,这也增加了数据训练的难度。
2)2D语义分割
通过用多边形闭合区域来对图像的内容按照不同的意义进行分割。通过分割标注和对目标物的属性进行判断和选择的方式,在2D图片上进行物体标注、图像分类、目标检测。目标物体识别是自动驾驶非常重要得一个环节。通过一定的方法将图像分割成具有一定语义含义的区域块,并识别出每个区域块的语义类别,实现从底层到高层的语义推理过程,最终得到一幅具有逐像素语义标注的分割图。
构建这一数据资产的团队通常会遇到以下难点:
1. 数据清洗:数据样本具有多样性,需要根据道路环境的复杂程度、数据清晰度、人物的环境背景等进行数据清洗。
2. 数据的清晰度:清晰度一定程度上会对目前物体产生干扰。图像的曝光度,模糊程度,远近距离等都是干扰数据训练和构建数据资产的难点。
3. 质量要求苛刻:对数据标注的准确度有98%的基础质量要求、3个像素以内的偏移误差。另外多层级属性的判断、物体细化的分类、明确共边、覆盖基础逻辑和一定的美工要求等也是难点。
4. 团队规模大,流程复杂:很多项目都需要大型团队协同工作才能快速交付海量数据。标注员提交的数据如果有质量问题,需要质检员提供质检意见并打回修改。一条数据从首次标注到成功交付可能会多次重复这个过程。团队要在这样的过程和验收人员协同,做到有条不紊。另外数据量因为受到采集的影响会不稳定,突然起量和突然断流的情况都很常见,这也增加了数据训练的难度。
3)3D点云模块
通过拉框和属性选择的方式,在3D点云中高精度的标注出目标实体。可支持连续帧以及和多路2D图像做融合标注的场景。点云结构化数据是众多自动驾驶研发厂商的核心资产。能否快速构建海量高精度的3D结构化数据资产,很大程度上是自动驾驶能力成功上线的关键。
构建这一数据资产的团队通常会遇到以下难点:
1. 数据格式特殊:有多种存储格式,需要专用的工具查看和处理。
2. 数据形态抽象:查看和理解难度大;在数据稀疏的情况下,有些目标的反射点离散,需要标注员有很强的空间推理能力。
3. 质量要求苛刻:超高精度的标注数据能给模型效果带来大幅提升。框切面的贴合度、ID的连续性、属性的一致性、运动方向的线性变化等细节都对 数据集 的质量有重大影响。保障这些细节需要训练有素的团队人员和高度定制化的平台工具。
4. 团队规模大,流程复杂:很多项目都需要大型团队协同工作才能快速交付海量数据。标注员提交的数据如果有质量问题,需要质检员提供质检意见并打回修改。一条数据从首次标注到成功交付可能会多次重复这个过程。团队要在这样的过程和验收人员协同,做到有条不紊。另外数据量因为受到采集的影响会不稳定,突然起量和突然断流的情况都很常见,这也增加了数据训练的难度。
4)长音频切分转写
通过自定义长音频工具进行切分并转写。可以支持长音频时间戳分段,包括静音段留白,各类标签;按照需求输出指定格式的结果文件
长音频数据应用的团队通常会遇到以下难点:
1. 数据格式多样化:有多种存储格式,音频数据需要进行较为繁琐的前后处理。
2. 质量要求苛刻:高达98%的字准率以及96%的句准率要求,静音段留白,重叠音频,区分说话人角色等 -- 保障这些细节需要训练有素的团队人员和高度定制化的平台工具。
3. 团队规模大,流程复杂:很多项目都需要大型团队协同工作才能快速交付海量数据。标注员提交的数据如果有质量问题,需要质检员提供质检意见并打回修改。一条数据从首次标注到成功交付可能会多次重复这个过程。团队要在这样的过程和验收人员协同,做到有条不紊。
Appen可以针对以上难点向客户提供行业顶级的高精度数据标注服务:
1. Appen中国秉承了Appen global的全球化资源体系,覆盖全球182个国家和地区、235种语言的音频转写能力
2. 此外还具有本土以北方大连、南方无锡为核心、连接了多个卫星基地的超千人的标注基地
3. 覆盖中国的东南西北各地域的多种方言例如粤语、长沙话、武汉话、苏州话、上海话、晋语、青岛话、济南话、东北话等
4. 精确掌握各种语言的字母表和拼写法则,掌握中国方言的正字字典
5. Appen可以提供专业化的声学指标标记
6. 特别是资源稀缺的小语种,积累了丰富的实施拼写标准化的经验
7. 专有项目经理全程对接、按项目为客户设定专门的管理团队和质检团队
8. 深入了解应用场景,结合丰富的行业实战经验,与客户一起制定最优标注方案
9. 提供周期性的工作报告,包括进度和质量统计
10. 针对客户源数据存储环境提供端对端 自动化 的对接方式
11. 支持多种定制化的ID规则和属性规则:
a) 车辆识别,交通标识牌识别,物体识别,车牌识别,车道线折线,障碍物识别、关键点标注等
b) 语义分割,道路分割,可行驶区域分割,全景分割
c) 支持连续帧,3D2D融合标注,其中2D部分支持绘制多种平面或透视立体框;支持定义对象之间的关联关系;支持脑补
d) 支持多精度时间轴前后留白,工具排查数据基础错误,提升标注效率
12. 澳鹏中国数据标注平台基于云的安全存储以及大规模T级别数据灵活性拓展
- 平台有周期性防 渗透测试 ,所有文件通过安全协议传输
- 支持通过混合云的方式集成客户私有文件服务器,项目进行中客户源文件和标注结果不经过平台流转(需额外付费)
- 支持海量数据快速上平台,支持大型项目在线扩容
13. 澳鹏中国数据标注平台支持各种流行的客户API接口和客户线上验收
- 支持API推送数据
- 平台在线验收和下载数据,自动实现线上交付
14. ISO27001 / ISO27701 系统性的安全保密防控措施
- 物理安全:符合ISO的安全站点、根据项目要求设置安全项目室
- 数据安全 :项目敏感数据保护、数据安全传输
- 终端安全:终端防护、加密、 威胁检测 、报警平台
- 安全培训:提高员工安全意识、信息安全培训