人类秒懂,AI却懵圈:视觉语言模型「视觉关联」能力短板

AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

近期,关于视觉语言模型(VLMs)的研究成果引起了广泛关注,其中VLM²-Bench被用来揭示模型在视觉关联能力方面的短板。这一发现给人们带来了一些思考:到底什么样的能力对于人类来说是无需思考的,并且AI在这一领域的表现又如何呢?

视觉语言模型的能力边界与局限性

当前,大部分评测基准侧重于复杂知识推理或专业场景,而对于视觉语言模型的能力边界并不是很清晰。VLM²-Bench的推出在一定程度上填补了这一空白,通过系统探究模型在人类级基础视觉线索关联能力上的表现,彰显了其在视觉关联方面的短板。研究发现模型在视觉線索關聯任務中普遍存在一定的共性,即过度依赖于线索的「连续可见性」,而缺乏对全局关联的动态视觉理解能力。

人类与AI在视觉关联能力上的差距

值得注意的是,人类在理解视觉关联方面表现得相当出色,很多情况下我们能够轻松理解的内容,对于AI来说却难以应对。这种差距凸显了VLMs在视觉关联能力方面的局限性,也提示着我们在未来AI发展中需要重点关注这一领域的提升与突破。

AI的发展与应用落地

随着AI技术的不断发展,对于AI能力的提升和应用落地变得愈发重要。从简单的“AI工具”到具备复杂任务执行能力的“超级Agent”,AI技术正在经历着巨大的提升。一些新型的AI产品和框架,如Claude 3.7 Sonnet等,不断刷新着大模型的能力边界,为AI应用的落地提供了新的可能性。

结语

总的来说,VLM²-Bench的研究揭示了视觉语言模型在视觉关联能力方面的不足,与人类的视觉理解水平相比存在较大的差距。随着AI技术不断发展,我们期待未来能够看到更多关于AI视觉关联能力提升的突破与创新,这将为AI技术的应用落地带来更多可能性。

以上内容参考自36Kr、腾讯新闻、网易和新浪香港等媒体报道。

资料来源:

  • 36Kr报道链接
  • 腾讯新闻报道链接
  • 网易报道链接
  • 新浪香港报道链接
  • 希望以上内容对您有所帮助。