超越 DeepSeek?巨头们不敢说的技术暗战
DeepSeek 的崛起:搅动 AI 格局
DeepSeek 的出现打破了人工智能领域长期以来的固有观念,即模型的能力与训练成本直接相关。DeepSeek 证明,模型性能与训练费用不一定成正比,这一突破是它引起全球关注的关键原因。数据显示,DeepSeek-V3 的训练成本仅为 Meta 的 Llama 3 的 1%,而 DeepSeek-R1 的推理成本仅为 OpenAI 的 GPT-o1 的 3%。
技术突破与成本优势
DeepSeek 的成功归功于其在 AI 架构上的重新思考和资源效率的优化。DeepSeek V3 在开放源模型中处于领先地位。Epoch AI 的一份报告显示,它仅使用 280 万 H800 小时的训练硬件时间就达到了基准,约合 4e24 FLOPs,这比 Meta 的 Llama 3.1 的训练计算量少了约 10 倍,在成本效益方面取得了显著成就。DeepSeek 创始人梁文峰在接受 36 氪采访时表示,DeepSeek 的核心技术岗位主要由应届毕业生或工作一两年的员工担任,公司招聘时更看重能力而非经验。
巨头们的应对:合作与竞争
DeepSeek 的崛起促使科技巨头们纷纷调整策略。Baidu、Alibaba Cloud、Huawei 和 Tencent 先后与 DeepSeek 建立了连接,而 ByteDance 的 Doubao 仍在观望。Tencent 认为,其复杂的产品生态系统需要 Hunyuan 的多模态能力,而这恰恰是 DeepSeek 目前的短板。因此,Tencent 不会减少对自研基础模型的投资,而是会敦促他们以更高的效率拿出更多具有领先指标的“硬货”。
DeepSeek 的挑战与机遇
尽管 DeepSeek 在技术和成本上取得了显著优势,但它也面临着一些挑战。美国政府对先进计算硬件的出口管制限制了中国 AI 公司获取高端芯片。DeepSeek 创始人梁文峰表示,他们面临的问题从来不是资金,而是对先进芯片的出口管制。DeepSeek 目前有一个付费产品:开发者可以访问其模型。其推理模型的成本为每百万输出 token 2.19 美元(平均 75 万字),远低于 OpenAI 的 60 美元。
中国 AI 的自强之路
DeepSeek 的创新出现在美国芯片限制之际,这验证了中国 AI 行业有能力实现从芯片到模型和应用的自给自足循环,大大增强了中国 AI 供应链的信心。DeepSeek 的开源和低成本特性也有望赋能 AI 应用开发者,并推动 AI 在硬件领域的应用。
DeepSeek 的未来:商业化与技术创新
DeepSeek 专注于 AI 研究,目前还没有立即将 AI 模型商业化的计划。DeepSeek 与 AMD 建立了合作伙伴关系,这使得其模型(如 DeepSeek-V3)能够使用 AMD Instinct GPU 和 ROCM 软件。DeepSeek 也是中国领先的拥抱开源原则的 AI 公司之一。通过开源 AI 模型和训练数据集,DeepSeek 能够吸引更多的用户和开发者,从而帮助模型变得更加先进。
DeepSeek 的影响:AI 民主化
DeepSeek 的开源 AI 模型 DeepSeek-R1 与 OpenAI 在数学推理、代码生成和成本效率等关键领域展开竞争,这标志着全球 AI 格局正在发生转变。DeepSeek 的低成本和技术能力对 Meta、OpenAI 和 Microsoft 等美国科技巨头在 AI 领域的巨额支出提出了质疑。DeepSeek 的目标是降低 AI 的使用门槛,让更多的人能够参与到 AI 的创新和应用中来。
结语:技术暗战,未来可期
DeepSeek 的出现打破了 AI 领域的传统格局,引发了科技巨头们的技术暗战。DeepSeek 以其低成本、高性能的 AI 模型,以及开源的策略,正在推动 AI 技术的普及和发展。未来,DeepSeek 将继续在技术创新和商业模式上探索,为中国乃至全球的 AI 发展贡献力量。