DeepSeek的昂贵创作:AI开发成本飙升至1.6B美元

作者: Gabriella Feb 25,2025

DeepSeek令人惊讶的是廉价的AI模型DeepSeek V3正在摇晃AI行业并引起了巨大的涟漪,尤其是NVIDIA的主要股价下跌。尽管DeepSeek最初使用2048 GPU声称培训成本仅为600万美元,但仔细观察显示出了更大的投资。

DeepSeek Test图像:ensigame.com

DeepSeek V3的创新架构是其性能的关键。它利用:

  • 多语预测(MTP):同时预测多个单词以提高速度和准确性。
  • 专家(MOE)的混合物:使用256个神经网络,每个令牌激活8个,提高训练速度和性能。
  • 多头潜在注意力(MLA):反复从文本片段中提取关键信息,以最大程度地降低忽略关键细节的风险。

DeepSeek V3图像:ensigame.com

但是,半分析发现DeepSeek使用了大约50,000个NVIDIA HOPPER GPU(包括10,000 H800、10,000 H100和其他H20 GPU),分布在多个数据中心。这项大规模的基础设施代表了大约16亿美元的服务器投资,运营成本估计为9.44亿美元。中国对冲基金High-Flyer的子公司DeepSeek拥有这些数据中心,提供了无与伦比的控制和创新速度。公司的自筹资金地位进一步增强了其敏捷性。

DeepSeek图像:ensigame.com

DeepSeek的高薪(一些研究人员每年收入超过130万美元),吸引了中国顶级人才,进一步促进了其成功。最初的600万美元数字仅反映了培训前的GPU成本,省略了研究,改进,数据处理和基础架构。 DeepSeek对AI开发的实际投资超过5亿美元。尽管如此,与更大的官僚竞争者相比,其精益结构可以有效地创新。

DeepSeek图像:ensigame.com

DeepSeek的故事突出了资金庞大,独立的AI公司与已建立巨头竞争的潜力。虽然“预算友好”的叙述有些夸大了,但与竞争对手相比(例如,DeepSeek的R1与Chatgpt的Chatgpt $ 1亿美元的Chatgpt4o)相比,成本优势仍然很大。该公司的成功最终源于大量投资,技术进步和高技能的团队。