在人工智能(AI)浪潮汹涌的当下,如何精准地把握技术发展脉搏,并在激烈的市场竞争中脱颖而出,成为每一位创业者和投资者关注的焦点。特别是当AI进入“下半场”,其发展逻辑和评判标准也随之演变。在36氪举办的WAVES新浪潮2025大会上,红杉中国投资人公元就“如何在AI下半场,定义‘好问题’?”这一主题进行了深入探讨,为理解当前AI生态下的机遇与挑战提供了独到见解。
AI上半场的“满分陷阱”与标准失焦
回顾AI发展的上半场,尤其是以ChatGPT为代表的大语言模型(LLM)崛起之后,行业普遍见证了一种现象:每当出现新的数据集或测试标准(benchmark),大模型很快就能被训练至“SOTA”(State-of-the-Art,最先进水平),并在测试中获得满分。然而,这种“快速SOTA”的循环也暴露出一个核心问题:是模型真的变得更聪明了,还是“考卷”本身存在不足?公元在演讲中指出,大模型“考100分”的现象,反映了AI上半场测试标准可能存在的局限性。当大量的模型都能轻松取得高分时,原有的评测体系就难以有效区分模型的真实能力和潜在的“卷纸能力”(即模型擅长针对特定测试集进行优化,而非真正掌握了通用智能)。这种情况下,传统的基准测试或许已经失效,无法作为衡量模型进步和潜力的可靠标尺。
Xbench的诞生:为AI下半场重塑“金标准”
正是基于对AI上半场“满分陷阱”的深刻洞察,红杉中国推出了Xbench——首个由投资机构推出的、面向大模型和AI Agent的基准测试。Xbench的推出,标志着红杉中国在AI投资评估领域的一次重要探索,旨在为AI下半场的评估体系寻找新的“金标准”。公元提到,红杉中国在过去两年多的时间里,经历了三次迭代的内部测试标准的构建过程。第一次是ChatGPT刚出现时,为了理解并投资这一浪潮,红杉中国开始构建内部工具来观测模型发展。第二次则是在模型能力不断提升后,对测试标准进行升级。而第三次迭代,则上升到了反思“模型变聪明还是卷子有问题”的哲学层面,促使了Xbench的诞生。Xbench的出现,并非简单地增加新的测试题目,而是希望通过更科学、更具前瞻性的评估体系,来应对大模型在能力上快速“过卷”的挑战,从而更好地识别那些真正具备长远价值的AI项目。
AI下半场:从“能问”到“会问”的认知跃迁
公元在演讲中也强调了AI下半场的核心在于“定义‘好问题’”。这不仅仅是对技术能力的要求,更是对产品价值和商业落地的深刻思考。当大模型具备了强大的内容生成和信息处理能力后,关键在于如何利用这些能力去解决更复杂、更有价值的现实问题。这意味着,评估的重点将从“模型能不能回答问题”转向“模型能不能被用对问题”。对于创业者而言,理解并提出“好问题”,将是赢得未来的关键。这需要深入洞察行业痛点,结合自身技术优势,设计出能够真正创造价值的解决方案。
Agents的演进与“智力全球化”
在WAVES新浪潮2025大会的其他讨论中,关于AI Agents的发展也引发了广泛关注。与大模型作为基础设施提供能力不同,AI Agents更侧重于“执行”和“伙伴”的角色。它们被设想为能够主动理解任务、规划行动并自主完成目标的智能体。这种能力的发展,尤其是在全球化背景下,为中国AI创业者带来了新的机遇。有观点认为,随着AI Agent能够承载知识、技能和决策能力,它们能够绕过传统贸易壁垒,实现“智力全球化”——即思维和创意的全球高效传递。对于中国AI企业而言,这预示着“忘记出海,生而全球”的新思路,即从一开始就以全球化视野来设计和构建产品,利用AI Agent打破地域和文化的限制,参与全球价值创造。
具身智能:技术与商业落地的双重挑战
此外,具身智能(Embodied AI)作为AI技术的重要发展方向,也在大会上被反复提及。与纯粹的软件智能不同,具身智能将AI能力赋予物理实体,如机器人。投资人普遍认为,具身智能尚未达到其“iPhone时刻”,仍处于技术迭代和商业场景落地的快速发展期。在这一领域,评估一家公司的关键在于三个方面:数据闭环的能力、硬件降本的能力以及商业场景落地的能力。技术领先固然重要,但最终能否成功,还取决于能否找到适配的商业场景,提供有价值的产品,并在成本上实现可行的商业模式。
结语:拥抱变化,定义未来
总而言之,红杉中国投资人公元在WAVES新浪潮2025大会上的分享,深刻地揭示了AI发展正在从单纯的技术竞赛转向价值创造的阶段。AI上半场的“高分现象”提醒我们,需要建立更有效、更有深度的评估体系;而AI下半场的关键,则在于“定义‘好问题’”,即如何将AI能力转化为解决实际问题的强大工具。无论是对于大模型还是AI Agent,亦或是具身智能的发展,清晰的价值定位和有效的商业落地将是衡量成功与否的关键。中国创投市场正迎来“新纪元”,理解并适应AI的演进逻辑,勇于探索和定义“好问题”,将是中国企业在这个新时代乘风破浪的核心驱动力。