大厂争锋：多模态与Agent成AI新战场 – realnews.my 马来西亚新闻经济科技旅游娱乐体育生活

人工智能浪潮汹涌，风口变幻莫测。从大模型基座能力的竞逐，到如今，巨头们纷纷将目光投向多模态与智能体（Agent），一场新的“赛点”争夺战已悄然打响。这背后，不仅是技术演进的必然，更是人工智能走向落地、重塑人机交互模式的关键一步。

潮头涌动：为何是多模态与Agent？

人工智能的终极目标，或许在于让机器更接近人类的智能。在这个宏大愿景下，多模态与Agent的崛起，恰恰是沿着两条核心进化路径展开。

首先，多模态能力旨在打破机器与现实世界的感官隔阂。人类接收和处理信息，绝非仅依赖文本，而是通过视觉、听觉、触觉等多种感官协同完成。传统AI多专注于单一模态，如文本生成或图像识别，难以真正理解复杂的世界。多模态大模型的出现，使得AI能够同时处理文本、图像、音频、视频等多种形式的数据，并实现它们之间的互相理解和转换。这极大地降低了用户与大模型有效沟通的难度，让交流更加自然、直观，机器也能更全面地“感知”和“理解”人类的意图与需求。想象一下，你可以通过语音指令让AI分析一张图片，或者用文字描述一段场景，让AI生成逼真的视频，这无疑是人机交互方式的巨大飞跃。

其次，智能体（Agent）则赋予了AI执行复杂任务的能力。如果说多模态让AI能够更好地“听”和“看”，那么Agent就是让AI能够更好地“做”。一个AI Agent就像一个“人造大脑”，它能够感知外部信息，自主进行任务规划、决策与执行。不再仅仅是回答问题或生成内容，Agent的目标是理解用户的目标，然后像人类一样调用各种工具、协调不同步骤，一站式地完成复杂的流程。例如，一个Agent可以帮你预订机票、管理日程、撰写报告，甚至编写代码。这种能力意味着AI不再是简单的辅助工具，而是能够独立承担任务、与环境互动的“智能体”，将极大地提升工作和生活的效率。

正因如此，多模态能力和代理执行能力被视为大模型落地C端场景、实现真正价值的两个重要支柱，共同推动着AI向着更低门槛、更高效率的方向发展。

巨头布阵：争相抢滩新赛道

面对多模态和Agent带来的巨大潜力，国内外科技巨头和创新企业早已摩拳擦掌，纷纷下注。

在多模态领域，竞争异常激烈。字节跳动、百度、谷歌、OpenAI等公司都在近期推出了多模态能力更强的基础大模型产品。例如，OpenAI发布的GPT-4o，能够处理或生成文本、图像、音频等多种形式的数据，其视频生成模型Sora更是引发业界轰动，具备强大的视频生成能力。国内厂商也在积极追赶，阿里旗下的夸克APP就上线了基于通义大模型实现的多模态功能“拍照问夸克”。这些多模态大模型的不断迭代和优化，为各种创新应用的涌现奠定了基础。

Agent领域的战况同样胶着。微软创始人比尔·盖茨曾高调评价Agent将颠覆软件行业和人机交互方式，认为主导个人助理Agent的公司将掌握巨大的未来入口。OpenAI的应用研究主管也曾撰文为AI Agent指明了方向。在海外，Notion推出了AI驱动的电子邮件服务Notion Mail，OpenAI的Operator和Deep Research则分别聚焦浏览器操作和研究领域，X AI也增加了Grok Studio协助用户生成文档、代码、报告等。

国内市场也迅速跟进，通用Agent产品纷纷上线。字节旗下的扣子空间、百度的心响App、360的纳米AI，以及前百度高管的Genspark等产品，都主打通过自然语言完成复杂任务，并具备代码编写、连接第三方工具等能力。与此同时，OpenAI推出的低代码Agent开发工具GPT Builder，让下游开发者能够便捷地基于其强大的基座模型构建自己的Agent，也在一定程度上改变了Agent创业的格局。

不仅是纯软件层面的Agent，一些硬件形态也在探索与Agent的结合。例如，AI眼镜被视为集眼镜、耳机、相机多功能于一体的智能助手，搭载大模型后有望演变为AI Agent的物理载体。无论是音频AI智能眼镜、拍照AI智能眼镜，还是AR+AI智能眼镜，都在探索如何通过多模态交互和Agent能力，在C端生活服务场景率先落地。

挑战与未来：脚手架与漫长打磨

尽管多模态和Agent展现出诱人的前景，但这条赛道远非一片坦途，面临着诸多挑战。

首先，当前的多模态和Agent产品仍处于早期探索阶段，用户体验在许多细节上仍有待打磨。模型的意图理解能力、第三方工具的调用效率、生成内容的准确性和可靠性等，都需要持续优化。微软CEO纳德拉曾将具备执行能力的通用Agent比作一个为用户搭建的“脚手架”，上面摆放着趁手的工具，但要让这个脚手架真正稳固、工具真正好用，需要时间和持续的投入。

其次，Agent的发展很大程度上依赖于底层大模型能力的提升和成本的降低。目前AI大模型行业仍处于亏损阶段，投入与产出尚未完全平衡。Agent的不足之处，很多需要依靠模型能力的进一步突破来完善，例如更强的复杂推理能力、自我纠错能力等。

再者，如何找到明确且具有独特价值的落地场景，是AI应用厂商面临的普遍问题。尤其对于ToC应用而言，商业化路径仍在探索中，用户付费意愿和粘性尚需培养。Agent产品需要证明其能够真正为用户带来不可替代的价值，而不仅仅是锦上添花的工具。

然而，挑战也孕育着机遇。随着大模型技术的不断演进，以及对多模态和Agent能力的持续投入，我们有理由相信这些不足将逐步得到解决。未来的AI应用，将更加智能化、便捷化，能够深刻改变人们的工作、学习和生活方式。

终局猜想：应用统治的时代？

百度创始人李彦宏曾提出“应用统治未来世界”的观点。当前，大模型能力的提升和成本的降低，确实极大地刺激了AI应用的爆发，也再次让人们看到了这一预言成为现实的可能性。

多模态让AI的交互更加人性化，Agent让AI能够深入现实世界执行任务。两者的结合，正在构建一个全新的AI应用生态。未来，我们或许不再需要频繁切换各种应用程序，而是由一个强大的AI Agent，通过多模态的方式与我们自然交流，并自主调用各种服务和工具，完成从信息获取到任务执行的全过程。

这场由多模态和Agent引领的AI新赛点，是一场技术实力、产品创新和场景落地的全面较量。虽然终局尚无定论，但可以肯定的是，这场竞赛将加速人工智能的普及和落地，带来更加智能、便捷的未来。谁能在这场新的浪潮中把握先机，谁就有可能成为定义未来人机交互模式的领跑者。

Related Articles