百度转向多模态大模型的背后玄机揭秘

当下,人工智能的浪潮正以前所未有的速度席卷全球,每一次技术的跃迁都牵动着无数神经。视频生成大模型Sora的横空出世,无疑是这场浪潮中的一个引爆点,其逼真、流畅的视频生成能力让业界惊叹,也引发了国内科技企业的“Sora焦虑”。然而,在众多企业纷纷表示要“对标Sora”甚至推出自己的视频生成模型时,国内AI领军企业百度却传出“坚持不做Sora”的声音,这在当时看来似乎是一个令人意外的决定。

但随后百度却又开始高调强调并大力发展多模态大模型,这看似矛盾的策略背后,究竟隐藏着怎样的战略考量?从“不做Sora”到“重视多模态”,百度AI战略的演进逻辑是什么?这其中又折射出当前大模型发展的哪些深层问题?

“不做Sora”的冷静与克制

Sora的出现,展现了文本到视频生成的巨大潜力,一时间风头无两。然而,百度创始人李彦宏却对此表现出冷静的态度。他明确表示,“Sora这种,无论多火,百度都不去做。” 他进一步解释,这并非不看好多模态技术,而是认为像Sora这样的视频生成模型,其投入周期可能长达10年甚至20年,且短期内难以实现大规模商业化应用。

这种判断并非空穴来风。训练Sora这类模型需要惊人的算力投入和高质量的数据。据估计,仅训练Sora模型,可能就需要数千块英伟达H100 GPU训练一个月,而未来要正式推出并提供服务,所需的算力更是天文数字,成本高达数百亿美元。 这种持续、高强度的资源消耗,让“视频ChatGPT时代”虽然引人遐想,但在商业落地上却显得有些遥远。 此外,尽管Sora效果惊艳,但生成内容的“幻觉”问题依然存在,这在很大程度上限制了其在需要高可控性和准确性的实际场景中的应用。

因此,百度选择在Sora热潮中保持克制,是基于对投入产出比(ROI)的理性分析和对技术落地前景的审慎判断。李彦宏认为,人工智能是一场新的工业革命,需要耐心和巨大的投入,而不是追求短期的“一鸣惊人”。

多模态:AI的必经之路与百度的“应用来了”战略

尽管“不做Sora”,但百度并未放弃多模态技术。相反,他们开始更加强调和重视多模态大模型的发展。这并非战略摇摆,而是对AI发展方向的深刻认知和自身技术积累的自然延伸。

多模态是AI发展的必然趋势: 现实世界的信息是多模态的,我们通过视觉、听觉、文本等多种感官来感知和理解世界。一个真正智能的AI系统,也必须具备处理和融合不同模态信息的能力。多模态大模型能够同时理解和生成文本、图像、音频、视频等多种类型的数据,这将极大地拓展AI的应用边界,使其能够更好地服务于人类,解决更复杂的问题。

弥补技术短板,追赶竞争对手: 尽管百度在AI领域布局已久,但在多模态模型上的进展相较于一些竞争对手,此前确实存在一些滞后和误判。 认识到这一点后,百度正在积极补齐这一短板,强化文心大模型的多模态理解和生成能力。最新发布的文心大模型4.5和4.5 Turbo就实现了文本、图像和视频的混合训练,显著提升了跨模态学习效率和融合效果。

服务“应用来了”的核心战略: 百度当前的核心战略是推动AI应用的规模化落地,而多模态能力是实现这一目标的关键支撑。李彦宏强调,“应用才是真正创造价值的。” 解决AI“幻觉”问题,提升模型的可控性和可信赖性,是推动AI应用大规模落地的当务之急。 多模态技术可以通过增加模型获取信息的多样性,帮助模型更全面地理解上下文,从而在一定程度上缓解幻觉问题。

百度将多模态技术应用于其核心业务和新兴领域,例如:

  • 搜索业务的重构: 百度正在利用AI重构搜索体验,通过多模态能力使搜索结果更加丰富和智能化,例如生成包含图像、视频等多种形式的内容。
  • 智能云赋能千行百业: 百度智能云提供多模态生成式AI模型和平台,帮助企业客户在教育、电商、直播、自动驾驶等不同场景中落地多模态应用,推动产业智能化升级。
  • 数字人与智能体: 百度看好数字人等具有多模态交互能力的产品形态,认为智能体未来可能成为信息和服务的主要载体。 其超拟真数字人技术已在直播等领域取得应用。
  • 自动驾驶: 李彦宏认为视觉大模型最大的应用场景是自动驾驶,百度在这一领域具有优势,并将多模态能力应用于理解真实世界和预测未来。

这些应用场景都离不开强大的多模态能力的支撑。因此,百度重视多模态大模型,是服务于其整体AI战略和商业落地目标的必然选择。

战略调整与未来展望

百度从“不做Sora”到重视多模态,也反映出其在快速变化的AI竞争格局中的战略调整和对自身优势的再认识。

务实的商业化路径: 与投入巨大、商业化前景尚不明朗的视频生成模型相比,百度选择将资源投入到更能快速产生实际价值和商业回报的多模态应用领域。例如,通过优化文心大模型的性能并降低价格,吸引更多开发者和企业使用其API,从而扩大市场份额并实现盈利。

发挥自身技术积累: 百度在搜索、知识图谱、自动驾驶等领域拥有深厚的技术积累,这些优势都可以与多模态大模型相结合,形成差异化的竞争优势。例如,结合搜索技术解决AI幻觉问题,利用自动驾驶场景推动视觉大模型的发展。

拥抱开源与开放生态: 百度计划开源文心大模型4.5系列,并提供免费的文心一言机器人服务,旨在加速AI技术的普及和应用,构建繁荣的AI生态系统。 这也是吸引开发者、推动多模态应用创新的重要举措。

总而言之,百度“坚持不做Sora”并非否定视频生成技术本身,而是在特定时期和特定技术路线上做出的战略取舍。其随后对多模态大模型的重视,则是基于对AI发展趋势的判断、自身技术优势的考量以及推动AI应用落地的坚定决心。在“应用来了”的战略指引下,百度正将多模态能力作为构建AI新生态、驱动业务增长的核心引擎,探索一条有别于纯粹追求“炫技”的、更加务实和可持续的AI发展之路。这条路上充满挑战,但也蕴藏着巨大的机遇,百度的选择能否带来更大的成果,时间将给出答案。