欧版OpenAI新推理模型遭质疑，避战Qwen与R1？ – realnews.my 马来西亚新闻经济科技旅游娱乐体育生活

思绪涌动：一场围绕新模型的无声较量

人工智能领域的进展总是牵动着无数关注的目光，每一次新模型的发布都伴随着期待与审视。当号称“欧洲的OpenAI”的Mistral AI推出其首款推理模型Magistral时，本以为会是一场技术实力的盛大展示，没想到却意外地引发了一场关于“避战”与“对比”的舆论风暴。

新模型来了，SOTA在哪里？

Mistral AI发布的Magistral模型，带着其CEO“能够与其他所有竞争对手相抗衡”的豪言壮语而来。然而，眼尖的网友们很快就发现，在官方给出的基准测试报告中，对比对象似乎“精心挑选”过。特别是国内备受瞩目的Qwen系列和DeepSeek R1模型，尤其是最新版本，竟然在对比之列“消失”了。这让许多人感到困惑和不满：既然声称能够匹敌所有对手，为何不敢与当前被广泛认可的SOTA模型进行直接较量？

这种“避战”行为并非首次。此前Mistral AI在发布Ministral 3B/8B模型时，虽然号称“始终优于同行”，却同样没有拿出与Qwen2.5的对比数据。屡次的“选择性对比”不禁让人质疑，这究竟是出于何种考量？是技术实力确有不足，抑或是市场营销的策略？

对比中的“猫腻”与质疑

更让人生疑的是，在与DeepSeek-R1的对比中，Mistral AI使用的是旧版本DeepSeek-R1的数据。要知道，在AIME-25数学测试中，DeepSeek-R1-0528的准确率已经从旧版的70%提升至87.5%。使用旧数据进行对比，无疑会放大Magistral的优势，显得不够公平和透明。这种做法，很难不被解读为一种“注水”行为，进一步加剧了网友的“被喷”。

网友们的质疑声此起彼伏。他们拿出数据进行对比，发现Magistral Small（24B参数）的性能与Qwen 4B相差无几，而Qwen的30B MoE模型表现更优，DeepSeek R1的最新版本更是展现出了明显的领先优势。这些来自社区的真实对比，与官方报告形成了鲜明对比，让Magistral的所谓“SOTA”光环黯淡了不少。

Magistral的“亮色”与市场的审视

尽管在与顶尖模型的对比中遭遇质疑，Magistral并非全无可取之处。作为Mistral推出的首个基于纯强化学习（RL）训练的推理大模型，它在技术路线上有所创新。官方强调了Magistral在多语言推理方面的优势，尤其是在解决欧洲语言推理效果不如本土语言的问题上有所突破。例如，在阿拉伯语提示和响应的展示中，Magistral Medium展现了其多语言能力。

此外，Magistral还专为透明推理设计，针对多步逻辑进行了微调，提升了可解释性，并能提供可追溯的思考过程，这对于需要高度透明和可信赖的行业应用具有潜在价值。在Le Chat中的Flash Answers功能，也展示了Magistral Medium在token吞吐量上的显著提升，这对于大规模实时推理至关重要。Magistral推出了两个版本：面向开源社区的Magistral Small（24B参数）和面向企业的Magistral Medium，这种分级策略也符合市场需求。

然而，这些亮点并不能完全冲淡在核心性能对比上的疑虑。市场的审视是严格的，尤其是在竞争激烈的AI领域。用户和开发者更看重的是模型在实际任务中的表现，以及与当前最佳模型的真实差距。缺乏与顶级竞争对手的透明对比，会让潜在用户对其真实能力产生担忧。

“欧洲的OpenAI”：任重而道远

Mistral AI作为“欧洲的OpenAI”，承载着欧洲在AI领域追赶甚至超越的期望。CEO Arthur Mensch此前提到的“美国的模型用英语进行推理，中国的模型更擅长用中文进行推理”的观点，凸显了Magistral在多语言，尤其是欧洲语言推理上的战略意义。然而，要真正坐稳“欧洲的OpenAI”的位子，需要的不仅仅是技术创新和市场策略，更需要勇气去面对最强的对手，用最真实的数据说话。

此次Magistral发布引发的争议，也给所有AI公司提了个醒：在技术飞速发展的当下，透明和诚实的基准测试比任何营销口号都更有说服力。避开核心竞争，选择性展示优势，或许能在短期内制造声势，但长期来看，只会损害自身的信誉和形象。

未来展望：是挑战还是机遇？

Mistral AI面临的挑战是显而易见的。他们需要用实际行动证明Magistral的实力，敢于与Qwen、DeepSeek R1等顶级模型在公平的基准下进行较量。开源社区的反馈和真实世界的应用将是最好的试金石。如果Magistral能在多语言推理、透明度或效率等方面展现出独特的、具有竞争力的优势，并且在核心性能上能够逐步缩小差距，那么它依然有机会在激烈的市场竞争中占据一席之地。

对于AI社区而言，这场争论也是有益的。它促使人们更加关注模型评估的公平性和透明度，呼吁建立更统一、更具公信力的基准测试体系。只有在充分透明和公正的竞争环境下，AI技术才能真正实现健康、快速的发展。“欧洲的OpenAI”之路充满挑战，但每一次挑战都蕴含着成长的机遇。希望Mistral AI能够正视问题，用真正的技术实力赢得市场的认可。

Related Articles