80%的数据+20%的模型=更好的AI。
这是人工智能领域知名学者吴恩达在他45岁生日当天提出的人工智能领域的“二八定律”,他说“让我们的工作从以模型为中心转向以数据为中心,将对很多(人工智能)团队大有裨益。”
在过往十几年人工智能产业高速发展过程中,算法模型研发的重要性被空前放大,互联网大厂更是动辄为算法工程师开出百万年薪,这让本就默默无闻的数据一度没什么光环。
实际上,时下主流AI算法要以数据驱动仍是一个不争的事实,在人工智能产业中,数据收集、数据处理仍是关键的前置环节,而支撑这些前置环节的是一个庞大的数据服务产业。
澳鹏就是这样一家数据服务供应商,澳鹏Appen(中国)产品及研发总监钱程告诉至顶网,“随着近年来人工智能工业化和工程化成为趋势,企业对定制化、复杂性的数据需求度越来越高,而对于一些商业化落地比较好的公司,他们需要的数据量也在成倍增长。”
数据成本的增加,也就成了企业加载人工智能引擎时无可回避的一个问题。
高质量数据为什么是自动驾驶的关键
自动驾驶是当下商业化落地比较好的一个应用场景,也是澳鹏一个核心业务场景,自动驾驶涉及的数据服务按场景划分又可以划分为两大类——舱内数据、舱外数据。
澳鹏Appen(中国)高级客户经理张先雄告诉至顶网,“2016年-2020年,我们拿到的绝大部分数据服务订单是以车内场景为主,车内场景主要涉及的是人车交互(TTS合成、语音识别)和车内人的舆情监控(人的情绪识别、是否安全驾驶的识别),相比起车外场景,车内场景相对简单,能到千万级别的项目很少。”
不过,随着自动驾驶进程提速,尤其是在自动驾驶道路测试牌照陆续发放后,自动驾驶厂商纷纷开始向L3及以上的自动驾驶技术冲刺,这时,自动驾驶厂商对舱外数据服务的需求也与日俱增。这样的需求变化既有数据需求量的增长,也有更复杂的数据类型的变化。
从数据量来看,舱内数据需求量基本在亿帧以下,而舱外数据需求量都在亿帧以上,甚至会达到几十亿帧的规模;从数据类型来看,舱外的数据类型既有摄像头拍摄的图像数据,也有激光雷达3D点云数据,数据标注起来更为复杂。
以舱外为主的数据标注服务的不断涌现,也使得数据成本急剧上升。
身在潮流中的澳鹏自然也感受到了这样的变化,据张先雄透露,“从2020年左右,L3及以上的自动驾驶研发,越来越受市场关注,我们能看到一些重投入客户一年会拿出几个亿的预算来做数据标注,少一点的也在千万级别。”
仅仅是每年在数据标注上的投入,就已经相当于不少中小型企业的年营收,这也使得提起人工智能时,不少中小体量企业会望而却步。
对于企业而言,如何低成本获取高质量数据就成了他们在这个时代的刚需。
数据如何降本、增效、精准化
作为一家成立于1996年的数据服务公司,澳鹏在数据服务领域已经深耕多年,根据澳鹏最新发布的《人工智能和机器学习全景报告》调查数据显示,42%的技术专家表示, AI生命周期中的数据获取阶段很有挑战性。这样的挑战同样存在于自动驾驶领域。
钱程告诉至顶网,AI在自动驾驶项目中部署产生的成本主要来自两方面,一方面是硬件成本,另一方面则是人力成本。人力成本主要集中在数据服务上,这其中既有平台建设上的人力投入,也有数据采集、数据标注上的人力投入。
以特斯拉为例,特斯拉现在已经建立起千人规模的数据标注团队,搭建了一套用于数据标注的软件平台,针对数据标注的软件平台,特斯拉还有一个完整的开发维护团队。
实际上,除了自建数据服务团队外,不少车厂也在与数据服务商合作,以此降低人力成本。张先雄告诉至顶网,“国内不少整车厂、汽车解决方案厂商,以及造车新势力都在使用我们的数据服务,自动驾驶领域的营收也已经占到我们公司整体营收的较大比重。”
以澳鹏与某自动驾驶厂商舱外合作项目为例,张先雄透露,“项目推进过程中受到数据采集流转集中度影响其实存在波峰波谷,在项目推进波峰期,有时一次会传回几亿帧,甚至几十亿帧的图像数据,对这些数据进行清洗、标注的团队投入就要达到5000-10000人,即便是在波谷期也要一两千人团队做服务支持。”
目前,澳鹏在全球拥有超过100万名技能娴熟的众包资源,支持235+种语言和方言,遍布170+个国家和70000个地区,在中国拥有超过千余名全职员工、1000+BPO资源、数万名高质量本土众包人员,拥有专业的评估和项目团队全程跟进试标、采集、标注、质检、验收和交付流程。
除了通过与数据服务商合作以降低人工智能落地成本外,在澳鹏内部,也在通过搭建搭建数据标注平台来提效降本。
2019年,在人工智能高速发展这一年,澳鹏搭建了人工智能数据标注平台,钱程告诉至顶网,“平台带来的效率提升是最直接的,也是最容易被客户忽略的。”
实际上,平台开发最难的不是前期几百万、几千万成本的投入,而是搭建团队有多少项目经验,团队见到过多少数据类型、看到过多少不同细分场景的数据逻辑和规则,“只有经历过多个项目、不同场景实战经验,才能打造出一个高效的数据标注平台。”
据钱程介绍称,澳鹏MatrixGo数据标注平台可以两部分能力:
第一,项目管理功能,在一个实际项目中,整个数据标注过程可以分为初始标注、多轮质检,以及最后的数据验收,整个过程还存在数据打回、数据锁定、数据释放等环节,例如在质检环节通过的标注数据,没能通过最终验收,还会打回重新进行数据标注。MatrixGo平台针对这样的场景可以构建灵活的工作流,整个工作过程可以自定义配置。
第二,数据标注工具,针对文本、图像、视频、音频、3D点云等各类数据,MatrixGo平台构建了一整套数据标注工具,澳鹏团队在项目中也在使用这些工具,在这些项目中不断打磨这些工具。
这样一套平台既可以作为软件直接提供给需要数据服务的厂商使用,也可以进行私有化部署,钱程告诉至顶网,”澳鹏正是通过这套平台推动数据降本,服务提效的。“
除了通过降低人力成本、平台成本,澳鹏还在合成数据上进行了重点布局,而合成数据,有可能成为未来数据降本的一个利器。
合成数据新趋势
2022年3月,澳鹏以200万英镑收购了合成数据公司Mindtech Global的少数股权。与此同时,合成数据也正在成为行业的一个焦点。
“人工智能在实际落地之前通常针对特定场景需要做一些优化,这个时候会需要大量针对特定场景的数据作为AI算法模型的训练数据,如果仅仅依靠现场采集,针对一些特殊场景,无法采集到足够的训练数据,这时合成数据就是一个很好的选择。”
不过,这里也存在一个人工智能技术发展成熟度的问题,由于自动驾驶针对舱外数据需求还普遍停留在优化普通场景的阶段,对合成数据的需求度并不高,澳鹏在合成数据领域的布局也还未真正来到产业落地关口,不过张先雄相信,“未来合成数据一定会变得越来越重要。”
而当谈到合成数据对人工智能降本的推动作用,张先雄告诉至顶网,“未来针对真正落地之前的特定场景的增效百分比,合成数据能够达到80%,甚至更高。”
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。