谷歌Gemini预训练负责人首揭AI扩展最优解

这篇52页的PPT,由谷歌Gemini Flash预训练负责人Vlad Feinberg在普林斯顿大学首次揭秘,主要探讨了扩展定律的最优解,以及谷歌如何在模型大小、算力、数据和推理成本之间找到平衡,从而在激烈的AI大模型竞争中取得优势。

大模型训练的要素与挑战

在模型训练中,计算资源的合理利用至关重要。如何利用有限的计算资源(例如,1000块H100芯片运行30天)训练出最佳的LLM? 这就涉及到模型参数量(N)和训练token数量(D)之间的权衡。对于Transformer模型,计算量C和N、D之间存在一个近似公式:C≈6×N×D。

MLP(多层感知机)是模型的重要组成部分,不同操作的浮点运算量和参数量有所不同。注意力机制的计算更为复杂。将MLP和注意力机制的计算量合并,就能了解整个模型训练时的计算量情况。

Kaplan定律与Chinchilla 龙猫

2020年,Kaplan等人的研究揭示了模型性能与数据量、模型规模和计算量之间的关系。自回归Transformer模型中,小模型可以用来预测大模型的性能。模型性能与算力、参数量、数据量之间存在幂律关系。当计算预算增加10倍时,模型参数量应增加5.37倍,数据量增加1.86倍。这一结论在当时引起了广泛关注,点燃了企业的“军备竞赛”。

然而,2022年,DeepMind对Kaplan的观点提出了质疑。Kaplan的研究在每个模型规模下仅运行一次训练,并用中间损失来估计不同token训练步数下的损失。Chinchilla论文指出,基于单次训练的中间loss点来推断存在缺陷,通过适当的学习率衰减可以获得更好的损失值,只有最终的损失值才是最优的。

Chinchilla论文采用了IsoFlops方法,固定浮点运算量预算,同时改变模型规模和训练token数量。研究发现,模型参数N和数据量D应以大致相同的速率(幂律指数约为0.5)随算力C增长,这与Kaplan等的结论大相径庭。这意味着,按Kaplan定律训练的模型,参数量偏大,而训练数据不足。

推理成本的重要性

Chinchilla强调的“训练不足”和推理成本非常重要,因为大模型最终是要被使用的。谷歌内部有很多应用场景,例如高通量服务(搜索AI Overviews、免费的Gemini App、企业级Vertex AI平台、AI Studio API等)和实时交互应用(Project Astra、Project Mariner这类需要即时响应的多模态应用),这些都需要考虑推理成本。

谷歌Gemini Robotics与扩展定律

谷歌还在探索人形机器人的通用物理智能系统。谷歌DeepMind团队发现,在机器人领域,扩展定律并不总是成立。面对物理世界,扩展定律更像一门艺术,而不是科学。机器人数据的质量、分布、多样性和覆盖范围,比数据数量本身更重要,研究者需要找到机器人扩展定律的那条曲线,预测投入和产出的关系。在机器人领域,扩展往往意味着比大型语言模型更高的成本,尤其是后者的边际效应已经开始降低。

Gemini 2.0 在几何推理方面的突破

淘天集团发布了全球首个几何推理专项评测,Gemini-2.0 在该评测中夺冠。该评测从几何原理的视角出发,全面评估多模态大模型几何解题能力。评测包括几何原理识别(GPI)、几何原理应用(GPA)和答案准确性(ACC)三个方面。

结论

谷歌 Gemini 预训练负责人 Vlad Feinberg 的分享,揭示了 AI 大模型训练中模型大小、算力、数据和推理成本之间复杂而微妙的平衡关系。通过对 Kaplan 定律和 Chinchilla 龙猫等研究的深入分析,我们可以看到,在追求模型性能的同时,必须充分考虑计算资源的利用效率和实际应用中的推理成本。这一洞见对于优化大模型训练策略、推动 AI 技术的广泛应用具有重要意义。