2023-08-18
自动驾驶汽车的道路测试是一个非常昂贵的过程,涉及经过认证的专业驾驶员和独特的测试车,测试车在后备箱中配备了小型数据中心和数百个传感器。自动驾驶/高级驾驶辅助系统(AD/ADAS)每天都会从测试车辆中收集大量数据。数据量巨大,加上需要遵守严格的客户服务水平协议 (SLA),使得数据收集过程既复杂又昂贵。因此,每次试驾都能产生有价值且可靠的数据,这一点至关重要。
有句老话说,对于常规数据挖掘,80% 的时间都花在数据清理上。由于 AD/ADAS 数据被持续摄取(PB 级),并且大部分为二进制流,因此没有时间进行数据清理。由于失败、无法使用数据的最常见原因是源数据配置错误,因此确保汽车测试数据在源头有效至关重要。
这就是数据质量保证的用武之地。我们需要确保摄取的数据可以用于不同的目的,例如构建机器学习模型或进行硬件和软件在环模拟。这就是为什么汽车制造商和一级供应商经常创建一个完整的部门专门致力于开发和维护质量数据管道。作为确保数据质量的额外保障,他们还建立了一个自动通知流程,在质量检查失败时触发;出现数据问题的汽车或设备的所有者会立即收到问题通知,以便问题得到快速解决。
在数据收集过程中,有很多地方需要进行数据检查。一般来说,检查越早,潜在错误的代价就越小。
数据收集和质量保证管道中的第一个也是最关键的设备是称为记录器的收集设备。该设备位于汽车内,负责收集和存储来自其他车内设备或传感器的原始数据,例如 GPS、光探测和测距 (LiDAR) 传感器、雷达传感器、摄像头、来自控制器局域网 (CAN) 的信号。 )和以太网总线。
由于记录器通常不是很强大,因此其验证存储数据的能力相当有限。然而,它仍然执行一个非常有用的功能:跟踪它存储在磁带上的数据并将其组织到较小的目录(称为目录)中:
通过记录日期(称为测量),将单次行程中捕获的 所有设备的数据存储在一个目录中
或者按设备,其中每个目录包含为每个单独设备捕获的所有测量数据。
所采取的方法将取决于随后处理数据的方式。了解数据集是数据质量的关键;如果你不知道你期望什么,你如何验证你是否拥有它?通常,您所期望的内容以元数据的形式保存:一个文件,其中包含存储在盒式磁带上的文件列表,以及识别数据所需的附加信息,例如设备标识符、汽车详细信息和驾驶员信息。
当盒式磁带已满时,应立即将数据卸载到大容量存储器,以使盒式磁带恢复使用。过去,标准海量存储位于具有分布式文件系统的本地集群中。当今的现代存储位于云中,因此您可能会认为下一步自然是将数据传输到云中,对吧?但在上传 TB 级数据之前,我们不应该做点别的事情吗?
从数据质量的角度来看,我们不仅应该,而且必须。我们真的需要大量无法访问或不完整的数据吗?答案很明显:不!首先应验证数据,将其转换为不同的格式(如有必要),甚至可能进行匿名处理。然而,众所周知,车载设备的功能不足以执行所有必要的数据质量检查。此外,上传 100TB 的数据(自动测试车在 8 小时轮班期间收集的典型数据量)需要相当长的时间,而将昂贵的测试车停在车库里既浪费时间又浪费金钱。此外,互联网连接可能不足以在可接受的时间内上传数据。
现在,大多数汽车制造商将数据盒运送到配备有众多上传站的上传中心,这些上传站可高速连接到云端。上传站不仅是充当本地世界和云之间桥梁的边缘计算机,而且还是本地世界和云之间的桥梁。它们是功能强大的机器,配备了许多内核和足够的 RAM 来执行所有预上传过程,例如:
确定元数据文件是否准确地描述了数据盒带的真实内容
即时数据修复
验证数据:GPS 是否始终可用?相机图像质量好吗?
这些检查的结果将确定数据是否适合在云中进一步处理。
正确构建的数据质量管道,具有内部验证和提供快速反馈的仪表板,可以为汽车制造商提供有关所收集数据质量的实时信息。这使他们能够立即对任何错误做出反应,例如可能对 KPI 产生不利影响的故障设备,或汽车本身的错误配置。
在数据分析的早期阶段识别这些问题,从而确保汽车测试数据的质量,将为汽车制造商节省宝贵的时间和金钱,并帮助他们更快地推进自动驾驶技术。
通过 浦巍咨询 的合规服务找到 IMDS&CADMS 支持。我们的专家团队从一开始就与 IMDS&CAMDS 合作,我们可以为您的团队提供所需的支持,以满足您在 2023 年的合规法规和客户要求。立即通过info@puweizx.com联系我们。
请探索我们 浦巍咨询 强大的在线 IMDS 认证培训。
IMDS , IMDS Submission, IMDS Training, Online Training Shanghai Puwei
IMDS , IMDS 提交, IMDS 培训, 在线培训,上海浦巍
CAMDS,CAMDS提交,CAMDS 培训, 在线培训,浦巍咨询