新闻资讯

Deepseek v3正式发布:用557.6万美金超越Claude 3.5 Sonnet的惊人杰作

作者:誉合科技 点击:92次 发布时间:2025-01-27

2024年12月26日,DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3,每秒处理 60 个 token,比 V2 快 3 倍!MoE架构,6710 亿参数,激活 370 亿参数,训练基于 14.8 万亿高质量 token,完全开源,附送53页pdf技术论文

主要看点

1.DeepSeek-V3 采用了创新的知识蒸馏方法,将 DeepSeek R1 系列模型中的推理能力迁移到标准 LLM 中。该方法巧妙地融合了 R1 的验证和反思模式,显著提高了 DeepSeek-V3 的推理性能,同时又保留了对输出风格和长度的控制

2.首次在大规模模型上验证了 FP8 训练的可行性和有效性

3.通过协同优化,有效克服了跨节点 MoE 训练中的通信瓶颈,使得计算与通信几乎完全重叠

4.在 DeepSeek-V2 高效架构的基础上,DeepSeek-V3 引入无辅助损失的负载均衡策略和多标记预测(MTP)目标,不仅提升模型性能,还支持推理加速的预测解码

5.仅耗费了 266.4万 H800 GPU 小时,就完成了对 14.8 万亿 token 的预训练。预训练后的后续训练阶段仅需 10 万 GPU 小时,用极小(相对)的成本实现了强悍的性能,这一点值得特别说明一下:

图片

最令人震惊的是DeepSeek-V3 如此先进的模型的训练成本,如表中所示,通过对算法、框架和硬件的优化共同设计实现。在预训练阶段,训练DeepSeek-V3每万亿个令牌仅需180K H800 GPU小时,即在集群上使用2048个H800 GPU需要3.7天。因此,预训练阶段在不到两个月的时间内完成,成本为2664K GPU小时。加上上下文长度扩展所需的119K GPU小时和训练后所需的5K GPU小时,DeepSeek-V3完整训练的总成本仅为2.788百万GPU小时。假设H800 GPU的租赁价格为每GPU小时2美元,总训练成本仅为557.6万美元


模型下载与本地部署:多种选择

DeepSeek-V3 提供了多种下载方式,用户可从 Hugging Face 下载该模型。总大小为 685GB,包括 6710 亿主模型权重和 140 亿多令牌预测 (MTP) 模块权重

为了方便用户本地运行,DeepSeek AI 还与开源社区和硬件厂商合作,提供了多种部署方案:

华为昇腾 NPU: 支持在华为昇腾设备上运行

DeepSeek-Infer Demo: 提供了轻量级的 FP8 和 BF16 推理演示

SGLang: 完全支持 DeepSeek-V3 的 BF16 和 FP8 模式,在 NVIDIA 和 AMD GPU 上均可运行

LMDeploy: 支持 DeepSeek-V3 的高性能推理和服务,无缝集成到 PyTorch 工作流中

TensorRT-LLM: 目前支持 BF16 推理和 INT4/8 量化,FP8 支持即将推出

AMD GPU: 通过 SGLang 支持在 AMD GPU 上运行,支持 FP8 和 BF16 精度