给大家出一道视觉问答题:在下面这张图片中,根据有礼服装饰的小熊玩具照片推理出这些玩具用来做什么的? 一个可能的答案或许是“婚礼”~ 及文本理解领域超越人类分数后,人工智能在多模态技术领域也迎来一大进展。 AI“读图会意”首超人类!阿里达摩院刷新全球机器视觉问题纪录 比较难得的是,3年前,让中国AI在文本理解领域历史性超越人类的,同样是达摩院AI研究团队。
VQA是什么? 近10年来,AI技术保持高速发展,AI模型已在多个任务和技能上达到超越人类的水平,比如在游戏领域,强化学习智能体 AlphaGo 2016 年击败了世界顶尖棋手李世石;在视觉理解领域,以 CNN 为代表的卷积类模型 2015 年 在 ImageNet视觉分类任务上超越了人类成绩;在文本理解领域,2018年微软与阿里几乎同时在斯坦福SQuAD挑战赛上让 AI 阅读理解超越了人类基准。 然而,在视觉问答VQA(Visual Question Answering)这一涉及视觉-文本多模态理解的高阶认知任务上,AI 过去始终未取得超越人类水平的突破。 “诗是无形画,画是有形诗。”宋代诗人张舜民曾如此描绘语言与视觉的相通之处。随着深度学习、视觉理解、文本理解等领域高速发展,自然语言技术与计算机视觉交融逐渐成为多模态领域重要的前沿研究方向。其中,VQA 是多模态领域挑战极高的核心任务,解决VQA挑战,对研发通用人工智能具有重要意义。 为鼓励攻克这一难题,全球计算机视觉顶会CVPR从2015年起连续6年举办VQA挑战赛,吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构参与,形成了国际上规模最大、认可度最高的VQA数据集,其包含 超20万张真实照片、110万道考题。 VQA 是AI领域难度最高的挑战之一。在测试中,AI需根据给定图片及自然语言问题生成正确的自然语言回答。这意味着单个AI模型需融合复杂的计算机视觉及自然语言技术:首先对所有图像信息进行扫描,再结合对文本问题 的理解,利用多模态技术学习图文的关联性、精准定位相关图像信息,最后根据常识及推理回答问题。 AI“读图会意”首超人类!阿里达摩院刷新全球机器视觉问题纪录 今年6月,阿里达摩院在 VQA 2021 Challenge 的55支提交队伍中夺冠,成绩领先第二名约1个百分点、去年冠军3.4个百分点。两个月后,达摩院再次以81.26%的准确率创造VQA Leaderboard全球纪录,首次超越人类基准线 80.83%。 这一结果意味着,AI 在封闭数据集内的 VQA 表现已媲美人类。 面对更开放的现实世界,AI一定会遇到新的挑战,需要喂更多的数据、进一步提升模型。但和 CV 等领域的发展一样,这一结果依然具有标志性意义,相信VQA技术在现实中的表现提升只是时间问题。 AI“读图会意”首超人类!阿里达摩院刷新全球机器视觉问题纪录 图注:VQA技术自2015年的进展 2 VQA分数超人类如何诞生? VQA挑战的核心难点在于,需在单模态精准理解的基础上,整合多模态的信息进行联合推理认知,最终实现跨模态理解,即在统一模型里做不同模态的语义映射和对齐。 据了解,为了解决VQA挑战,达摩院语言技术实验室及视觉实验室对AI视觉-文本推理体系进行了系统性的设计,融合了大量算法创新,包括: 多样性的视觉特征表示,从各方面刻画图片的局部和全局语义信息,同时使用Region,Grid,Patch等视觉特征表示,以更精准地进行单模态理解; 其中自研的多模态预训练模型E2E-VLP,StructuralLM已被国际顶级会议ACL2021接受。 模型大图如下: AI“读图会意”首超人类!阿里达摩院刷新全球机器视觉问题纪录AI“读图会意”首超人类!阿里达摩院刷新全球机器视觉问题纪录 这不是达摩院第一次在 AI 关键领域超越人类。 3 VQA 考高分有什么用? 达摩院语言技术实验室负责人司罗曾表示,“人工智能分为计算智能、感知智能、认知智能、创造智能四个层次。” 。
VQA考卷有多难? 对单一AI模型来说,VQA 考卷难度堪称“变态”。 根据士兵玩具和战斗场景+问题“图中玩具人的IP出自哪部电影??”AI要推理出答案“星球大战”。 6年前,这些问题对AI来说难度极高。经过多年的技术积累,达摩院AliceMind在VQA测试中拿到了超81分的成绩,基本达到普通人看图问答的水准。 体育娱乐: 好家伙,AI 真是变的越来越厉害了,人类危险了(吗)...... |
小黑屋|智能时代 精品传媒荣誉出品
( 京ICP备19056894号-1 )
GMT+8, 2022-5-18 02:17 , Processed in 0.060291 second(s), 20 queries .