人类秒懂，AI却懵圈：VLM²-Bench测试视觉语言模型 – realnews.my 马来西亚新闻经济科技旅游娱乐体育生活

随着人工智能技术的不断发展，视觉语言模型在图像识别和自然语言处理领域扮演着越来越重要的角色。然而，最近一个名为VLM²-Bench的研究揭示了视觉语言模型在”视觉关联”能力方面存在着短板，这让人工智能产生了困惑。

揭示短板：VLM²-Bench研究发现

根据36Kr报道，VLM²-Bench考察了视觉语言模型在通用、物体、人物线索的基础关联能力，含有9个子任务、3060个测试案例。实验引入了人类做答基准，发现模型在视觉关联方面存在明显的不足。人类能够轻松理解的内容，却让AI难以应对，这让人类秒懂，却让AI感到困惑。

模型局限：依赖性与局部理解

新浪财经的报道指出：该发现表明模型在视觉线索关联任务中存在一定的共性，过度依赖線索的“连续可见性”，缺乏全局关聯这一动态视觉理解的能力。这就导致了模型仅限于简单的局部认知，难以实现全局关联，从而产生视觉关联能力的缺陷。

挖掘潜力：AI技术的挑战与机遇

尽管VLM²-Bench的研究揭示了视觉语言模型的某些短板，但同时也给了人工智能领域发展的新的挑战和机遇。借助这些发现，研究者和工程师们可以更深入地了解模型的局限性，并探索如何改进模型，提升其全局关聯和动态视觉理解的能力，使之更接近人类的视觉关联水平。

对于AI领域的研究者和从业者来说，VLM²-Bench的研究成果提醒我们不应该过分依赖于模型的局部认知能力，而需要着眼于提升模型的全局关聯和动态视觉理解能力，从而实现更加智能化的视觉语言模型。这样才能更好地满足未来人工智能技术在各个领域的需求，实现更广泛的应用和发展。

以上就是对VLM²-Bench揭示的视觉语言模型视觉关联能力短板的分析和探讨。希望AI技术在不断发展的道路上，能够克服各种挑战，迎接更多的机遇，为人类带来更多的便利和创新。

资料来源：

—

如您需要进一步了解相关内容，请点击以上链接查看原文。

Related Articles