Scale AI发布免费激光雷达数据集 支持自动驾驶汽车的发展

导读 高质量的数据是AI算法发展的动力。没有标注数据的持续流动,可能会出现瓶颈,算法会逐渐变差,给系统增加风险。这就是为什么标签数据对Zoox

高质量的数据是AI算法发展的动力。没有标注数据的持续流动,可能会出现瓶颈,算法会逐渐变差,给系统增加风险。

这就是为什么标签数据对Zoox、Cruise和Waymo等公司如此重要,这些公司利用标签数据来训练机器学习模型,以开发和部署自动驾驶汽车。正是这种需求导致了Scale AI的诞生,这是一家利用软件和人员来处理和标记图像、激光雷达和地图数据以构建机器学习算法的公司。尽管Airbnb、Pinterest和OpenAI等公司也使用Scale的平台,但从事自动驾驶技术的公司在Scale的客户群中占了很大比例。

随着视频和音频公司暂停在公共道路上的测试(一种收集数十亿张图像的手段),大流行减缓甚至停止了数据流。Scale想免费重新打开水龙头。

本周,该公司与激光雷达制造商何塞合作,推出了一个名为PandaSet的开源数据集,该数据集可用于训练自动驾驶的机器学习模型。该数据集是免费的,并已被许可用于学术和商业目的,包括由何塞具有类似图像分辨率的前向PandarGT激光雷达及其机械旋转激光雷达Pandar64收集的数据。据该公司称,这些数据是在官员发布该地区整栋房屋的订单之前,在旧金山市中心和硅谷开车时收集的。

Scale首席执行官兼联合创始人亚历山大王在最近的一次采访中表示:“人工智能和机器学习是不可思议的技术,具有不可思议的影响力,但它们也带来了巨大的痛苦。”“机器学习绝对是一个垃圾收集框架——你真的需要高质量的数据来支持这些算法。这就是我们建立Scale的原因,也是我们今天使用这个数据集从开源的角度帮助推动行业发展的原因。”

王说,这个激光雷达数据集的目标是免费访问密集和丰富的数据集,这是通过在充满汽车、自行车、红绿灯和行人的复杂城市环境中使用两种类型的激光雷达来实现的。

王说:“世界上的Zoox和Cruises经常谈论他们的系统是如何在这些密集的城市环境中进行测试的。”“我们想真正让整个社区了解它。”

据该公司称,该数据集包括48000多幅相机图像和16000次激光雷达扫描,超过100个8秒场景。它还包括每个场景的28个注释类和大多数场景的37个语义分割标签。传统的长方体标签,如放置在自行车或汽车周围的小盒子,无法完全识别所有激光雷达数据。因此,Scale使用点云分割工具来精确注释复杂对象(如雨)。

免责声明:本文由用户上传,如有侵权请联系删除!