你好,游客 登录 注册 搜索
背景:
阅读新闻

谷歌推出新方案,图像标注速度提高三倍

[日期:2018-11-26] 来源:科技日报  作者: [字体: ]

  统手动标记(中列)和流体标注(右)比较

  谷歌AI团队近日推出了一款新型图像标注方式——“流体标注”,即采用机器学习来注释分类标签并勾勒出图片中的每个对象和背景区域。谷歌表示其可将标记数据集的速度高三倍。

人工智能

  百度众测平台去年曾发布了5000万元的数据标注任务,而今年预计将达3亿元。面对如此大的市场需求,效率低、交付质量参差不齐的人工标注方式亟待改进。谷歌此次推出的“流体标注”如何为图像标注提速?

  数据标注——机器感知世界的起点

  “数据标注是AI产业的基础,是机器感知现实世界的起点。没有经过标注的数据就是无用数据。”美国加州科技大学校长秦志刚教授在接受科技日报记者采访时表示,机器识别事物主要通过物体的一些特征。被识别的物体还需要通过数据标注才能让机器知道这个物体是什么。

  在机器的世界里,图像与语音等一样,是数据的一个种类。近年来,随着产品以及存储技能快的普及和发展,人们每天都可通过相机、可视电话、监控及健康设备等制造大量图像。因此,现阶段图像已然成为标注产业发展的着重对象。

  如果素材是一张人物图像,那么需要标注的信息往往是性别、面部朝向、人种、有无帽子眼镜等,也可以人为地将人物和背景的区域划分开来。将成千张经过标注的图片组成的数据集“投喂”给机器,它才能在一张新的图像中分辨出人物在哪个区域、具有怎样的外貌特征。对于人来说“小儿科”的思考历程,机器却需要大量的标记数据集进行训练。

  机器学习——缓和人工标注的压力

  提到AI产业,人们往往联想到繁华的城市和干练的IT人才,但实际上,支撑起AI的数据标注产业,却是一个劳动密集型产业。百度搜索“数据标注”,会出现很多图片语音数据采集、标注公司。随机选择一个此类词条点进去,往往会看到“万人数据标注团队”等类似宣传语。可见人工标注是目前数据标注的方式。

  “谷歌推出的流体标注模型主要利用AI学习的基础,对图像数据进行自动标注,对于标注不准确或者出现偏差的地方可以通过人工调整,从而增加标注效率。”秦志刚指出,即便该模型可借助机器学习增加标注速度,但初还需进行人为地数据标注,为其提供初始训练数据集。实际也正是如此,为了标注图片,谷歌预先以约一千张具有分类标签和信任分数的图片训练了语意分割模型。

  但该模型尚不完整,谷歌称,物体边界标记问题、界面操作速度以及类别扩展等仍需进一步研究或完善。

  AI——致力于生活中的简单应用

  虽然还有诸多难题尚待解决,但以流体标注模型为代表的数据标注新方式无疑顺应着AI的大潮流。实际上,自AI逐渐走热以来,很多行业都想搭上这个热潮。然而,在灼热的潮流背后,掩藏着一个根本性的问题:AI终将走向何方?

  “AI的本质是机器有‘学习’的能力,可想而知,AI可以缩短人自身的学习时间,从而将人从大规模脑力学习活动中解放出来,去专注于有价值的工作。”秦志刚表示,虽然人们普遍认为AI终将到来,但现阶段AI产业仍在云端。目前大多数AI的应用只能生存在高性能处理器的大型厂房中,就如同通用计算机ENIAC一样“大而笨重”。“众所周知,随后的几十年内计算机已发展到小型的笔记本电脑,功能却比ENIAC要强。AI也当如此”。

  界面简单、功能友好、无相关知识基础的人使用并获得舒适感,这是秦志刚设想的AI时代。一枚小小的AI芯片,可以完成学习、训练、推理等一系列“思考”过程,而它的终端表现则或许只是人们生活中为常见的简单应用。如下班回家,不需再拿出钥匙开门,智能门锁就像一位尽职的管家,会在一时间感知你的到来,为你敞开家门。“十年之后,AI将会成为主流,潜移默化渗透到生活中的角落。别看是小事情,背后却是高密集的技术支撑。”秦志刚表示。

 

  “愿景美好,但如何将AI落地和普及推广?这将是我们下一步亟待解决的难题。”秦志刚说。(实习记者 于紫月)

推荐 打印 | 录入:Cstor | 阅读:
本文评论   
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款