人工智能浪潮汹涌,风口变幻莫测。从大模型基座能力的竞逐,到如今,巨头们纷纷将目光投向多模态与智能体(Agent),一场新的“赛点”争夺战已悄然打响。这背后,不仅是技术演进的必然,更是人工智能走向落地、重塑人机交互模式的关键一步。
潮头涌动:为何是多模态与Agent?
人工智能的终极目标,或许在于让机器更接近人类的智能。在这个宏大愿景下,多模态与Agent的崛起,恰恰是沿着两条核心进化路径展开。
首先,多模态能力旨在打破机器与现实世界的感官隔阂。人类接收和处理信息,绝非仅依赖文本,而是通过视觉、听觉、触觉等多种感官协同完成。传统AI多专注于单一模态,如文本生成或图像识别,难以真正理解复杂的世界。多模态大模型的出现,使得AI能够同时处理文本、图像、音频、视频等多种形式的数据,并实现它们之间的互相理解和转换。这极大地降低了用户与大模型有效沟通的难度,让交流更加自然、直观,机器也能更全面地“感知”和“理解”人类的意图与需求。想象一下,你可以通过语音指令让AI分析一张图片,或者用文字描述一段场景,让AI生成逼真的视频,这无疑是人机交互方式的巨大飞跃。
其次,智能体(Agent)则赋予了AI执行复杂任务的能力。如果说多模态让AI能够更好地“听”和“看”,那么Agent就是让AI能够更好地“做”。一个AI Agent就像一个“人造大脑”,它能够感知外部信息,自主进行任务规划、决策与执行。不再仅仅是回答问题或生成内容,Agent的目标是理解用户的目标,然后像人类一样调用各种工具、协调不同步骤,一站式地完成复杂的流程。例如,一个Agent可以帮你预订机票、管理日程、撰写报告,甚至编写代码。这种能力意味着AI不再是简单的辅助工具,而是能够独立承担任务、与环境互动的“智能体”,将极大地提升工作和生活的效率。
正因如此,多模态能力和代理执行能力被视为大模型落地C端场景、实现真正价值的两个重要支柱,共同推动着AI向着更低门槛、更高效率的方向发展。
巨头布阵:争相抢滩新赛道
面对多模态和Agent带来的巨大潜力,国内外科技巨头和创新企业早已摩拳擦掌,纷纷下注。
在多模态领域,竞争异常激烈。字节跳动、百度、谷歌、OpenAI等公司都在近期推出了多模态能力更强的基础大模型产品。例如,OpenAI发布的GPT-4o,能够处理或生成文本、图像、音频等多种形式的数据,其视频生成模型Sora更是引发业界轰动,具备强大的视频生成能力。国内厂商也在积极追赶,阿里旗下的夸克APP就上线了基于通义大模型实现的多模态功能“拍照问夸克”。这些多模态大模型的不断迭代和优化,为各种创新应用的涌现奠定了基础。
Agent领域的战况同样胶着。微软创始人比尔·盖茨曾高调评价Agent将颠覆软件行业和人机交互方式,认为主导个人助理Agent的公司将掌握巨大的未来入口。OpenAI的应用研究主管也曾撰文为AI Agent指明了方向。在海外,Notion推出了AI驱动的电子邮件服务Notion Mail,OpenAI的Operator和Deep Research则分别聚焦浏览器操作和研究领域,X AI也增加了Grok Studio协助用户生成文档、代码、报告等。
国内市场也迅速跟进,通用Agent产品纷纷上线。字节旗下的扣子空间、百度的心响App、360的纳米AI,以及前百度高管的Genspark等产品,都主打通过自然语言完成复杂任务,并具备代码编写、连接第三方工具等能力。与此同时,OpenAI推出的低代码Agent开发工具GPT Builder,让下游开发者能够便捷地基于其强大的基座模型构建自己的Agent,也在一定程度上改变了Agent创业的格局。
不仅是纯软件层面的Agent,一些硬件形态也在探索与Agent的结合。例如,AI眼镜被视为集眼镜、耳机、相机多功能于一体的智能助手,搭载大模型后有望演变为AI Agent的物理载体。无论是音频AI智能眼镜、拍照AI智能眼镜,还是AR+AI智能眼镜,都在探索如何通过多模态交互和Agent能力,在C端生活服务场景率先落地。
挑战与未来:脚手架与漫长打磨
尽管多模态和Agent展现出诱人的前景,但这条赛道远非一片坦途,面临着诸多挑战。
首先,当前的多模态和Agent产品仍处于早期探索阶段,用户体验在许多细节上仍有待打磨。模型的意图理解能力、第三方工具的调用效率、生成内容的准确性和可靠性等,都需要持续优化。微软CEO纳德拉曾将具备执行能力的通用Agent比作一个为用户搭建的“脚手架”,上面摆放着趁手的工具,但要让这个脚手架真正稳固、工具真正好用,需要时间和持续的投入。
其次,Agent的发展很大程度上依赖于底层大模型能力的提升和成本的降低。目前AI大模型行业仍处于亏损阶段,投入与产出尚未完全平衡。Agent的不足之处,很多需要依靠模型能力的进一步突破来完善,例如更强的复杂推理能力、自我纠错能力等。
再者,如何找到明确且具有独特价值的落地场景,是AI应用厂商面临的普遍问题。尤其对于ToC应用而言,商业化路径仍在探索中,用户付费意愿和粘性尚需培养。Agent产品需要证明其能够真正为用户带来不可替代的价值,而不仅仅是锦上添花的工具。
然而,挑战也孕育着机遇。随着大模型技术的不断演进,以及对多模态和Agent能力的持续投入,我们有理由相信这些不足将逐步得到解决。未来的AI应用,将更加智能化、便捷化,能够深刻改变人们的工作、学习和生活方式。
终局猜想:应用统治的时代?
百度创始人李彦宏曾提出“应用统治未来世界”的观点。当前,大模型能力的提升和成本的降低,确实极大地刺激了AI应用的爆发,也再次让人们看到了这一预言成为现实的可能性。
多模态让AI的交互更加人性化,Agent让AI能够深入现实世界执行任务。两者的结合,正在构建一个全新的AI应用生态。未来,我们或许不再需要频繁切换各种应用程序,而是由一个强大的AI Agent,通过多模态的方式与我们自然交流,并自主调用各种服务和工具,完成从信息获取到任务执行的全过程。
这场由多模态和Agent引领的AI新赛点,是一场技术实力、产品创新和场景落地的全面较量。虽然终局尚无定论,但可以肯定的是,这场竞赛将加速人工智能的普及和落地,带来更加智能、便捷的未来。谁能在这场新的浪潮中把握先机,谁就有可能成为定义未来人机交互模式的领跑者。