斯坦福AI打造超强CUDA内核,性能翻倍碾压PyTorch

AI的意外惊喜:当代码也开始“思考”

在数字世界的深处,代码是构建一切的基础,而GPU(图形处理器)内核则是高性能计算的灵魂。这些内核通常由经验丰富的工程师精心优化,以榨取硬件的每一丝潜力。然而,最近来自斯坦福大学的一项研究,却带来了令人意想不到的发现:人工智能,竟然也能生成性能卓越的CUDA内核,甚至在某些情况下,其表现超越了人类专家的优化成果,对原生PyTorch实现了显著的性能碾压。这一突破不仅令人惊叹,更预示着AI在底层系统优化领域可能带来的变革。

当意外之喜敲响门:AI的“无心插柳”

这个故事的起点有些出人意料。斯坦福的研究团队最初的目标,是利用AI生成合成数据,以便训练一个更强大的内核生成模型。然而,在测试阶段,他们偶然发现,AI在生成这些合成数据时,竟然顺带生成了一些性能异常出色的CUDA内核。这个“无心插柳”的结果,立刻引起了研究人员的极大兴趣。

想象一下,你正在教一个学生如何写作,结果这个学生在练习时随手写出了一篇文采斐然、思想深刻的文章。斯坦福团队的发现,大抵就是这种感觉。这批由AI“意外”生成的内核,在常见的深度学习操作中展现出了惊人的效率提升。

性能几何级跳跃:数据说了算

为了量化AI生成内核的实际能力,研究团队在英伟达L40S GPU上进行了基准测试。结果令人瞠目结舌。在一些关键的深度学习操作上,AI优化后的内核性能提升幅度巨大:

  • 矩阵乘法 (Matmul, FP32): 性能达到原生PyTorch `torch.matmul` 的101.3%。虽然看起来提升不大,但考虑到矩阵乘法是深度学习中最基础且被广泛优化的操作,哪怕是微小的提升也意义非凡。
  • 二维卷积 (Conv2D): 性能达到原生PyTorch `torch.nn.Conv2D` 的179.9%。接近翻倍的性能提升,对于图像处理和计算机视觉任务来说,意味着更快的训练和推理速度。
  • Softmax: 性能达到 `torch.softmax` 的111.8%。
  • 层归一化 (LayerNorm, FP32): 性能更是达到了惊人的484.4%。层归一化在Transformer等模型中至关重要,近五倍的性能提升,将对大型语言模型的效率产生巨大影响。
  • Conv2D+ReLU+MaxPool组合操作 (FP32): 性能达到PyTorch参考实现的290.1%,以及使用`torch.compile()`优化后的参考实现的189.0%。这种复合操作的优化,更能体现AI在理解和融合不同操作方面的潜力。

这些数据清晰地表明,AI生成的内核在许多核心计算任务上,已经能够大幅超越原生PyTorch的实现,甚至比经过`torch.compile()`等工具优化的版本还要快。这意味着在不改变模型结构的前提下,仅仅通过替换底层计算内核,就能获得显著的性能提升。

AI的“思考”模式:不止是试错

为什么AI能够做到这一点?斯坦福团队在研究方法上做出了一个重要的创新。他们并没有采用简单地在现有代码上进行微小改动并测试性能的“爬坡”算法,而是引入了一个“语言推理”的步骤。在生成新的代码变体之前,AI会先用自然语言生成优化的想法或策略。

这种“先思考,再编码”的方式,极大地增加了搜索过程的多样性。传统的迭代优化方法很容易陷入局部最优解,而通过自然语言的引导,AI能够探索更广泛、更具创造性的优化路径。团队形象地将其比喻为让系统在每次改进时进行类似“思考”的过程,从而产生更多元的想法,最终找到更好的解决方案。

为了进一步提升思路的丰富性,研究团队还采用了多分支的探索模式。这意味着在每一步优化过程中,AI不会仅仅关注一个最佳候选方案,而是会将多个有潜力的想法分散开来,生成不同的实现代码,然后选择其中性能最好的内核作为下一轮优化的起点。这种“并行探索”的方式,有助于避免过早地收敛到次优解。

纯CUDA-C的挑战与成就

值得一提的是,这些AI生成的内核是用纯粹的CUDA-C语言编写的。这意味着它们没有依赖于CUTLASS、Triton等高级库或领域专用语言(DSL)。 直接操作底层的CUDA API,虽然开发难度更高,但也赋予了AI更大的自由度去探索底层的优化可能性。这进一步凸显了AI在理解硬件特性和编写低级代码方面的潜力。

华人力量的贡献:团队背后的智慧

在这项突破性的研究背后,斯坦福团队中有华人研究人员的身影,例如Anne Ouyang等。他们的贡献是这项研究取得成功的关键因素之一。这再次证明了华人科学家和工程师在全球人工智能研究领域的重要地位和影响力。

未来展望:不仅仅是内核

斯坦福的这项研究,不仅仅在于生成了高性能的CUDA内核。它更深远的意义在于,展示了AI在计算机系统底层优化方面的巨大潜力。通过结合语言推理和代码生成,AI可以帮助我们探索那些人类工程师可能难以发现的优化机会。

这项技术有望加速基础模型(如大型语言模型)的训练和推理过程,降低其巨大的能耗需求,并最终让AI模型在英伟达硬件上运行得更快、更高效。 虽然目前的研究成果还有进一步优化的空间,例如在FP16精度下的性能提升,但其展现的前景已经足够令人兴奋。

围观的网友们也在热烈讨论,有人认为这项研究预示着AI未来可能取代底层的内核工程师。虽然目前断言为时尚早,但AI作为辅助甚至主导优化工具的作用,无疑将越来越重要。这项研究与DeepMind之前的AlphaEvolve以及o3发现Linux漏洞等事件一起,似乎都在昭示着大型语言模型的能力正在迈向一个新的层级。

未来,这种利用AI进行系统优化的方法,不仅可以用于生成更优质的合成数据来改进模型训练,本身也是一种强大的运行时扩展方法。 这项研究是迈向更智能、数据效率更高的模型开发之路的关键一步,它让我们看到了AI在优化硬件与软件交互、提升计算效率方面的无限可能。或许在不久的将来,我们将会看到更多由AI“思考”并生成的,比人类专家优化得更好的底层代码,共同构建一个更高效、更智能的数字世界。