人类秒懂，AI却懵圈：视觉语言模型「视觉关联」能力短板 – realnews.my 马来西亚新闻经济科技旅游娱乐体育生活

AI却懵圈：VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

近期，关于视觉语言模型（VLMs）的研究成果引起了广泛关注，其中VLM²-Bench被用来揭示模型在视觉关联能力方面的短板。这一发现给人们带来了一些思考：到底什么样的能力对于人类来说是无需思考的，并且AI在这一领域的表现又如何呢？

视觉语言模型的能力边界与局限性

当前，大部分评测基准侧重于复杂知识推理或专业场景，而对于视觉语言模型的能力边界并不是很清晰。VLM²-Bench的推出在一定程度上填补了这一空白，通过系统探究模型在人类级基础视觉线索关联能力上的表现，彰显了其在视觉关联方面的短板。研究发现模型在视觉線索關聯任務中普遍存在一定的共性，即过度依赖于线索的「连续可见性」，而缺乏对全局关联的动态视觉理解能力。