欧版OpenAI新推理模型遭质疑,避战Qwen与R1?

思绪涌动:一场围绕新模型的无声较量

人工智能领域的进展总是牵动着无数关注的目光,每一次新模型的发布都伴随着期待与审视。当号称“欧洲的OpenAI”的Mistral AI推出其首款推理模型Magistral时,本以为会是一场技术实力的盛大展示,没想到却意外地引发了一场关于“避战”与“对比”的舆论风暴。

新模型来了,SOTA在哪里?

Mistral AI发布的Magistral模型,带着其CEO“能够与其他所有竞争对手相抗衡”的豪言壮语而来。然而,眼尖的网友们很快就发现,在官方给出的基准测试报告中,对比对象似乎“精心挑选”过。特别是国内备受瞩目的Qwen系列和DeepSeek R1模型,尤其是最新版本,竟然在对比之列“消失”了。这让许多人感到困惑和不满:既然声称能够匹敌所有对手,为何不敢与当前被广泛认可的SOTA模型进行直接较量?

这种“避战”行为并非首次。此前Mistral AI在发布Ministral 3B/8B模型时,虽然号称“始终优于同行”,却同样没有拿出与Qwen2.5的对比数据。屡次的“选择性对比”不禁让人质疑,这究竟是出于何种考量?是技术实力确有不足,抑或是市场营销的策略?

对比中的“猫腻”与质疑

更让人生疑的是,在与DeepSeek-R1的对比中,Mistral AI使用的是旧版本DeepSeek-R1的数据。要知道,在AIME-25数学测试中,DeepSeek-R1-0528的准确率已经从旧版的70%提升至87.5%。使用旧数据进行对比,无疑会放大Magistral的优势,显得不够公平和透明。这种做法,很难不被解读为一种“注水”行为,进一步加剧了网友的“被喷”。

网友们的质疑声此起彼伏。他们拿出数据进行对比,发现Magistral Small(24B参数)的性能与Qwen 4B相差无几,而Qwen的30B MoE模型表现更优,DeepSeek R1的最新版本更是展现出了明显的领先优势。这些来自社区的真实对比,与官方报告形成了鲜明对比,让Magistral的所谓“SOTA”光环黯淡了不少。

Magistral的“亮色”与市场的审视

尽管在与顶尖模型的对比中遭遇质疑,Magistral并非全无可取之处。作为Mistral推出的首个基于纯强化学习(RL)训练的推理大模型,它在技术路线上有所创新。官方强调了Magistral在多语言推理方面的优势,尤其是在解决欧洲语言推理效果不如本土语言的问题上有所突破。例如,在阿拉伯语提示和响应的展示中,Magistral Medium展现了其多语言能力。

此外,Magistral还专为透明推理设计,针对多步逻辑进行了微调,提升了可解释性,并能提供可追溯的思考过程,这对于需要高度透明和可信赖的行业应用具有潜在价值。在Le Chat中的Flash Answers功能,也展示了Magistral Medium在token吞吐量上的显著提升,这对于大规模实时推理至关重要。Magistral推出了两个版本:面向开源社区的Magistral Small(24B参数)和面向企业的Magistral Medium,这种分级策略也符合市场需求。

然而,这些亮点并不能完全冲淡在核心性能对比上的疑虑。市场的审视是严格的,尤其是在竞争激烈的AI领域。用户和开发者更看重的是模型在实际任务中的表现,以及与当前最佳模型的真实差距。缺乏与顶级竞争对手的透明对比,会让潜在用户对其真实能力产生担忧。

“欧洲的OpenAI”:任重而道远

Mistral AI作为“欧洲的OpenAI”,承载着欧洲在AI领域追赶甚至超越的期望。CEO Arthur Mensch此前提到的“美国的模型用英语进行推理,中国的模型更擅长用中文进行推理”的观点,凸显了Magistral在多语言,尤其是欧洲语言推理上的战略意义。然而,要真正坐稳“欧洲的OpenAI”的位子,需要的不仅仅是技术创新和市场策略,更需要勇气去面对最强的对手,用最真实的数据说话。

此次Magistral发布引发的争议,也给所有AI公司提了个醒:在技术飞速发展的当下,透明和诚实的基准测试比任何营销口号都更有说服力。避开核心竞争,选择性展示优势,或许能在短期内制造声势,但长期来看,只会损害自身的信誉和形象。

未来展望:是挑战还是机遇?

Mistral AI面临的挑战是显而易见的。他们需要用实际行动证明Magistral的实力,敢于与Qwen、DeepSeek R1等顶级模型在公平的基准下进行较量。开源社区的反馈和真实世界的应用将是最好的试金石。如果Magistral能在多语言推理、透明度或效率等方面展现出独特的、具有竞争力的优势,并且在核心性能上能够逐步缩小差距,那么它依然有机会在激烈的市场竞争中占据一席之地。

对于AI社区而言,这场争论也是有益的。它促使人们更加关注模型评估的公平性和透明度,呼吁建立更统一、更具公信力的基准测试体系。只有在充分透明和公正的竞争环境下,AI技术才能真正实现健康、快速的发展。“欧洲的OpenAI”之路充满挑战,但每一次挑战都蕴含着成长的机遇。希望Mistral AI能够正视问题,用真正的技术实力赢得市场的认可。