Deepseek简单入门 | Geepair’s Blog

type

Post

status

Published

date

Feb 12, 2025

slug

summary

1、写在开头

DeepSeek是私募量化巨头幻方量化旗下的一家大模型企业，成立于2023年5月份。专注通用人工智能(AGI)的中国科技公司，主攻大模型研发与应用。

2024年12月，开源DeepSeek V3模型，因为其良好的性能、超低的成本和友好的开源协议引起了广泛的关注。

2025年1月20日，开源DeepSeek R1推理大模型，其性能接近o1模型，且完全开源，调用成本降低了90-95%。

……

DeepSeek典型模型的发展历程

DeepSeek的每一次演进都围绕着效率、性能和实用性展开，展现了其在 AI 领域的持续创新和技术领先地位，DeepSeek 系列模型的架构演进可以概括为以下几个阶段：

基础架构：从 Transformer 架构出发，优化注意力机制和训练效率（DeepSeek LLM）。

专家混合模型：引入MoE架构，提升模型的专业化能力和效率（DeepSeekMoE）。

高效推理：通过MLA和多令牌预测（MTP）等技术，优化推理效率和训练成本（DeepSeek-V2、DeepSeek-V3）。

推理能力强化：利用强化学习和蒸馏技术，显著提升模型的推理能力和普及性（DeepSeek-R1 及蒸馏模型）。

DeepSeek-V3的综合能力

DeepSeek-V3 在推理速度上相较历史模型有了大幅提升。

在目前大模型主流榜单中，DeepSeek-V3 在开源模型中位列榜首，与世界上最先进的闭源模型不分伯仲。

DeepSeek基础设施情况（估计可用超过 6 万张高端 GPU）

DeepSeek-V3 布计算集群：2048 个 H800 GPU，节点内 NVLink 和 NVSwitch (160 GB/s)，节点间 IB 网络 (50 GB/s)

据美方估计：幻方量化和深度求索公司共享 10,000 A100 GPU (2021年之前购入)，以及超过 50,000 张 Hopper 架构 GPU (10,000 张 H100 + 10,000 张 H800 + 超过 30,000 张 H20）。

模型实验角度预估：MTP多种深度及模型结构设计、MLA 超参实验及算法验证、MOE 共享层实等同时跑10个实验，每个实验需要2000张，至少要20000张。

估计采购服务器花费 16 亿美元，4 年运营成本约 9 亿美元，总计约 25 亿美元 (181亿人民币)

2、DeepSeek模型

2.1、强化学习驱动的推理能力突破

之前已发布的大模型训练方案都采用了 SFT+RL 的方式，即首先需要大量的 SFT 数据进行指令微调，再通过强化学习优化模型。而 DeepSeek 发现即使不使用 SFT，也可以通过大规模强化学习显著提高推理能力。此外，通过包含少量冷启动数据进行 SFT 就可以进一步提高性能。

2024 年 12 月 26 日， DeepSeek-V3 通用模型开源，其总参数量 671B，生成 token 时的激活参数为 37B。 R1-ZERO 是在 V3 的基础上进行优化的，仅使用了 RL，无 SFT。R1 在 ZERO 的基础上先进行冷启动，再进行 RL，最后 SFT。

在 DeepSeek r1 的论文里，提到了 2 个模型，分别是 DeepSeek-R1-Zero 和 DeepSeek-R1：

DeepSeek-R1-Zero：不用任何 SFT，仅使用 RL + 规则 RM，就能激发模型产出带反思的 Long CoT，取得不错的效果。

DeepSeek-R1：加入少量（几千条）CoT 数据进行 SFT 作为冷启动，然后再进行RL，可以取得更优的性能，同时回答更符合人类偏好。

DeepSeek-R1-Zero

强化学习部分依然使用 DeepSeek 独家研发的 GRPO 框架。Reward Model 有所改变，没有训练常规的稠密奖励模型，而是采用了两种奖励方式结合：

准确性奖励：对于数学问题，直接匹配标准答案；对于代码问题，基于编译执行然后验证结果。

格式奖励：看 CoT 过程是否以标准<think> </think>包裹。之前用标签包裹每一段内容，是优化 prompt 的常用方法，这次 DeepSeek 把写 prompt 的方法融入到了 CoT训练数据中。简单暴力的规则，效果却出奇地好。但是 DeepSeek 的研发人员们发现 DeepSeek-R1-Zero 生成的答案可读性相对差、存在混合语言输出的问题。

DeepSeek-R1

为了解决 DeepSeek-R1-Zero 输出质量差的问题，就在此基础上进行了 SFT 和 RL，于是 DeepSeek-R1 就诞生了。DeepSeek-R1 采用如下 3 个阶段，又把能力进一步加强：

第一：CoT 数据冷启动 DeepSeek 收集到了少量（几千条）高质量的 CoT 数据，使用 few-shot 直接提示DeepSeek-R1-Zero 通过反思和验证生成详细答案，然后通过人工标注处理来细化结果。采用 CoT 数据，使用 SFT 方法进行冷启动，可以显著增强模型输出的可读，通过实验证明，也能进一步提升推理能力。

第二：全场景的强化学习为了进一步使模型与人类偏好对齐，DeepSeek 实施了第二阶段的强化学习。对于推理数据，使用了 DeepSeek-R1-Zero 中概述的方法，该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程；对于通用数据，采用了奖励模型来捕捉复杂和细致场景中人类的偏好，基于DeepSeek-V3 的流程，并采用相似的偏好对和训练提示词分布。

第三：拒绝采样和监督微调与最初主要关注推理的冷启动数据不同，此阶段构建推理数据和非推理数据，纳入了来自其他领域的数据来对模型进行 SFT，以提高模型的通用能力。

1.推理数据：采用拒绝采样的方式从前一阶段得到的模型生成推理过程。前一阶段只包括了基于规则的奖励数据，在此阶段，研发者额外扩充了数据集，其中一些数据通过将真实答案和模型预测输入到DeepSeek-V3 中进行判断，从而使用生成式奖励模型。同时，由于模型输出有时混乱且难以阅读，所以过滤掉了包含混合语言、长段落、代码块的 CoT 数据。对于每个提示词，DeepSeek 采样多个响应，并仅保留正确的响应，总共收集了大约 60 万个与推理相关的训练样本。

2.非推理数据：对于常规非推理数据，例如写作、翻译等，使用 DeepSeek-V3 的 SFT数据；对于某些非推理任务，会调用 DeepSeek-V3，通过提示词生成潜在的思维链，然后再回答问题；对于更简单的查询，例如“你好”，则不会在响应中提供思维链 CoT，而是直接回答。最终总共收集了大约 20 万个与推理无关的训练样本这一阶段总共生成了 80w 样本，用 DeepSeek-V3-Base 进行了 2 个 epoch 的 SFT，最后得到 R1 模型。

2.2 Janus → Janus-Pro

随着人工智能技术的快速发展，尤其是在多模态（即同时处理多种数据类型，比如图像和文本）领域，研究人员已经取得了不少进展。现有的很多模型，如 Chameleon，都尝试用同一个视觉编码器来处理理解和生成任务。例如，这些模型可以一方面理解图像的内容，另一方面生成符合图像的描述。然而，这种方法并不总是理想的。

理解和生成这两类任务需要处理的信息粒度不同，也就是说，模型在面对这两类任务时需要“看”图像的方式不同。如果用同一个视觉编码器去完成两种任务，很容易出现“力不从心”的情况。理解任务往往需要更细腻的视觉信息，而生成任务可能更注重大局和风格。因此，现有的统一模型通常在多模态理解任务上表现不佳，导致性能不够理想。

针对这个问题，DeepSeek 提出了 Janus 框架。Janus 的创新点在于，它解耦了视觉编码器，用两个不同的路径分别处理理解任务和生成任务。简单来说，Janus 不再用一个视觉编码器去同时处理两类任务，而是根据任务的不同需求，使用两个独立的编码器。这两个路径仍然通过一个统一的 Transformer 架构进行管理和协调。

Janus-Pro 是 DeepSeek 最新开源的多模态模型，是一种新颖的自回归框架，统一了多模态理解和生成。通过将视觉编码解耦为独立的路径，同时仍然使用单一的、统一的变压器架构进行处理，该框架解决了先前方法的局限性。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突，还增强了框架的灵活性。

Janus-Pro 超过了以前的统一模型，并且匹配或超过了特定任务模型的性能，它的的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的强大候选者。Janus-Pro 基于 DeepSeek-LLM-1.5b-base / DeepSeek-LLM-7b-base 构建。janus Pro 7B 在 2025 年 01 月 27 日发布，只用 14 天 256 张 A100 配置训练，生成理解图像超越此前最佳水平。

2.3 DeepSeek模型参数

DeepSeek 发布的首个大模型，包含 671 亿参数，在 2 万亿 token 的数据集上训练而成，涵盖中英文。其原理基于 Transformer 架构，通过对大规模文本数据的学习，模型能够理解和生成自然语言。在训练过程中，采用了优化的算法，使得模型在语言理解和生成任务上表现出色。

MOE模型	模型大小	共享专家	激活专家/总专家	激活比
Deepseek LLM	7B/67B	稠密模型	ㅤ	ㅤ
Deepseek MOE	145B	4	12/128	22/145=15.1%
Deepseek V2	236B	2	6/160	21/235=8.9%
Deepseek V3	671B	1	8/256	37/671=5.5%
Deepseek R1	671B	1	8/256	37/671=5.5%

学生模型

Model	Base Model
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-instruct

3、DeepSeek的创新之处

从 DeepSeek-V2 到如今的 DeepSeek-V3，DeepSeek 公司在不断探索和优化模型架构、训练方法和基础设施，力求在性能和成本之间找到最佳平衡。 DeepSeek-V3 的出现，正是这一努力的最新成果，它不仅在多个基准测试中超越了其他开源模型，甚至在某些方面与领先的闭源模型相媲美。

3.1 DeepSeek-R1蒸馏

模型蒸馏（model Distillation）是一种模型压缩和知识迁移的技术，旨在将一个大型、复杂且性能优异的教师模型中的知识传递给一个较小、计算效率更高的学生模型。通过蒸馏，学生模型可以在保留教师模型大部分性能的同时，显著减少计算成本和模型参数规模。

由于 DeepSeek r1 参数量达到千亿级别，仅推理资源就需要 32 张 A100，为了解决资源有限场景下又能保留大部分性能的问题，DeepSeek 基于蒸馏技术和 QWen、Llama 基模蒸馏出不同版本的 DeepSeek R1 蒸馏模型，可以用一张趣图理解：

蒸馏过程中，使用 DeepSeek-R1 精选的 80 万个样本对开源模型(如 Qwen 和 Llama)进行了微调，直接蒸馏的方法显著增强了较小模型的推理能力。

https://mp.weixin.qq.com/s/ol1LYboZwqdgutmq07TrjA

3.2 MLA多层注意力架构

DeepSeek-V3 采用了多头潜在注意力（MLA）和 DeepSeekMoE 两大核心技术。MLA 通过低秩联合压缩注意力键和值，显著减少了推理期间的键值（KV）缓存，同时保持了与标准多头注意力（MHA）相当的性能。DeepSeekMoE 通过引入细粒度专家和共享专家机制，实现了更高效的训练和推理。与传统的 MoE 架构相比， DeepSeekMoE 不仅提高了计算效率，还通过无辅助损失的负载平衡策略，避免了因负载不均导致的性能下降。

3.3、FP8混合精度训练框架

在训练精度方面，DeepSeek-V3 首次在大规模模型上验证了 FP8 混合精度训练框架的有效性。 FP8 格式以其较小的存储空间和计算开销，为高效训练提供了新的可能。然而，低精度训练也面临着激活、权重和梯度中异常值带来的挑战。DeepSeek 团队通过引入细粒度量化策略和高精度累积技术，成功克服了这些困难，实现了 FP8 训练的稳定性和高效性。这一创新不仅降低了训练成本，还为未来硬件的发展提供了新的方向。

3.4、DualPipe 跨节点通信

为了应对 DeepSeek-MOE 中跨节点专家并行带来的高通信开销，DeepSeek-V3设计了 DualPipe 算法，实现了计算和通信的高效重叠。通过将每个训练块细分为多个部分，并在前向和后向传播过程中交替执行计算和通信任务，DualPipe 算法显著减少了管道气泡，提高了训练过程中的计算利用率。这一策略不仅解决了大规模分布式训练中的通信瓶颈问题，还为模型的进一步扩展提供了可能。

3.5、无辅助损失的负载均衡策略

负载均衡一直是 MoE 模型训练中的一个关键挑战。传统方法通常依赖辅助损失来确保负载均衡，但这往往会牺牲模型性能。DeepSeek-V3 首创了一种无辅助损失的负载平衡策略，通过动态调整专家的偏置项，实现了训练过程中的负载均衡，同时最大限度地减少了对模型性能的负面影响。这一策略不仅提高了训练效率，还为 MoE 模型的进一步发展提供了新的思路。

3.6、跨节点全对全通信内核

DeepSeek 还专门定制了高效的跨节点 all-all 通信内核(包括调度和组合)。具体来说：跨节点 GPU 通过 IB 完全互连，节点内通信通过 NVLink 处理，每个 Token 最多调度到 4 个节点从而减少 IB 通信量。同时使用 warp 专业化技术做调度和组合的优化。

3.7、MTP（多令牌预测）技术

MTP 技术是 2024 年 meta 4 月提出来的，但 DeepSeek 团队在工程应用上做的快，DeepSeek-V3 引入了 MTP 技术。与传统的单标记预测不同，MTP 能够预测每个位置的多个未来标记，从而增强了模型对长序列的建模能力。这一目标不仅提高了模型在基准测试中的表现，还为推理阶段的加速提供了可能。

3.8、数据精筛

DeepSeek LLM 使用了规模庞大的双语数据集进行预训练，数据集包含 2 万亿字符。这一数据量远超同期许多其他模型所使用的数据集规模。如此大规模的数据集为模型提供了丰富的语言模式和知识，使其能够更好地理解和生成多种语言的文本。双语数据集的设计也意味着 DeepSeek LLM 在处理多语言任务时具有天然的优势，能够更有效地捕捉不同语言之间的共性和差异，提升模型在跨语言任务中的表现。

4、DeepSeek可以做什么?

直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。

4.1 用途

文本生成

文本创作

摘要与改写

结构化生成

自然语言理解与分析

语义分析

文本分类

知识推理

编程与代码相关

代码生成

代码调试

技术文档处理

绘图

数据图表

其他

4.2 分类

推理模型

推理大模型: 推理大模型是指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。

例如:DeepSeek-R1，GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。

非推理大模型: 适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。

例如:GPT-3、GPT-4(OpenAI)，BERT(Google)，主要用于语言生成、语言理解、文本分类、翻译等任务。

维度	推理模型	通用模型
优势领域	数学推导、逻辑分析、代码生成、复杂问题拆解	文本生成、创意写作、多轮对话、开放性问答
劣势领域	发散性任务(如诗歌创作	需要严格逻辑链的任务(如数学证明)
性能本质	专精于逻辑密度高的任务	擅长多样性高的任务
强弱判断	并非全面更强，仅在其训练目标领域显著优于通用模型	通用场景更灵活，但专项任务需依赖提示语补偿能力

5、演示

5.1 在线使用

网页在线使用

DeepSeek

Chat with DeepSeek AI.

https://chat.deepseek.com/

Models

Teaming up with excellent open-source foundation models.

https://cloud.siliconflow.cn/models

Kimi.ai - 帮你看更大的世界

Kimi 是一个有着超大“内存”的智能助手，可以一口气读完二十万字的小说，还会上网冲浪，快来跟他聊聊吧 | Kimi.ai - Moonshot AI 出品的智能助手

https://kimi.moonshot.cn/

扣子是新一代 AI 大模型智能体开发平台。整合了插件、长短期记忆、工作流、卡片等丰富能力，扣子能帮你低门槛、快速搭建个性化或具备商业价值的智能体，并发布到豆包、飞书等各个平台。

https://www.coze.cn/home

API接入，IDEA使用CodeGPT接入

5.2 本地运行

5.2.1 DeepSeek-R1

Ollama

Get up and running with large language models.

https://ollama.com/

deepseek-r1

DeepSeek's first-generation of reasoning models with comparable performance to OpenAI-o1, including six dense models distilled from DeepSeek-R1 based on Llama and Qwen.

https://ollama.com/library/deepseek-r1


ollama run deepseek-r1:1.5b
ollama run deepseek-r1:7b

使用命令行执行

使用WebUI运行演示

5.2.2 DeepSeek-Janus-Pro

Janus

deepseek-ai • Updated May 28, 2025

ComfyUI | Generate video, images, audio with AI

The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.

https://www.comfy.org/

使用ComfyUI运行演示

6、参考文档

DeepSeek

DeepSeek, unravel the mystery of AGI with curiosity. Answer the essential question with long-termism.

https://www.deepseek.com/

deepseek · 语雀

1、Deepseek技术报告-AI公司及AI研究院De...

https://www.yuque.com/liuliuplus/liuliuaisheji/mke028og9ava7azq#gKgFV

mp.weixin.qq.com

https://mp.weixin.qq.com/s/rqirY2HeV7mFrB4ssqTKbA

一条全解DeepSeek：低成本做出顶级AI的神秘东方力量【实测|详解|影响分析】_哔哩哔哩_bilibili

朋友们，DeepSeek V3这次无所不用其极的降本增效（我提到的都不是全部），暴打全部开源模型！你不能不了解~ 铁铁们也欢迎预定话题，想看啥随便提 ~ 说不定就是下期！还记得一键三连支持一下哦～, 视频播放量 1570081、弹幕量 3652、点赞数 60451、投硬币枚数 17565、收藏人数 37673、转发人数 16239, 视频作者秋芝2046, 作者简介 AI很单纯，复杂的是人～嘻嘻～|加入秋芝2046团队请投递简历qiuzhi2046@163.com，相关视频：20分钟带你全面解析DeepSeek，手把手教你DeepSeek正确打开方式，实现低成本训练丝毫不逊色Cursor！大模型|LLM，美国惊呆！中国AI公司DeepSeek细节全公开｜美国移民政策H1B大战背后：MAGA极右与DOGE掀“内战”！，【实测对比】Deepseek VS ChatGPT VS 豆包：简单几道题，看看它们的差距，我只是想试试水的深浅，没想到这水潭深不见底！，中国AI超越美，普京下令全面向中国学习AI。，Meta被DeepSeek逼疯？员工爆料：无法向小扎交代，正在疯狂剖析复制中，【中文大模型DeepSeek-V2.5】带你全面认识DeepSeek：使用DeepSeek 236B进行Text-to！，中国AI团队大模型DeepSeek-V3震惊全球科技界，外国网友看傻了，都在问怎么做到的，国产AI大模型 DeepSeekV3 核心技术详解！DeepSeek训练方法便宜在哪？MLA是什么？MoE技术会成为大模型的主流技术？大模型微调，国产大模型之光DeepSeek-V3本地部署教程，实现低成本训练，开源最强大模型！

https://www.bilibili.com/video/BV1KFrYY7ErP

【摆脱卡顿】DeepSeek全网最全的实战技巧！建议收藏～_哔哩哔哩_bilibili

被DeepSeek官网卡到爆？全部使用渠道+本地知识库+使用技巧+进阶玩法，这条全搞定！感谢朋友们关注～, 视频播放量 1668286、弹幕量 1313、点赞数 110567、投硬币枚数 74349、收藏人数 209794、转发人数 22092, 视频作者秋芝2046, 作者简介 AI很单纯，复杂的是人～嘻嘻～|加入秋芝2046团队请投递简历qiuzhi2046@163.com，相关视频：清华大佬终于把DeepSeek讲明白了！适合所有人学习，如何入门到精通？少走99%的弯路！存下吧！很难找全的！，挑战二百天，用Deepseek挣够300万，第一天，教你用DeepSeek算命，准的离谱！，当下DeepSeek可以帮你赚钱的几个路径，就在刚刚，国家针对deepseek出手了！！！，用DeepSeek「三分钟创造一门生意」并当天盈利，DeepSeek 现状，必看！DeepSeek从入门到精通！这11个高阶技巧，让你的效率提升10倍，DeepSeek 在欧洲杀疯了。，DeepSeek 牛在哪儿？

https://www.bilibili.com/video/BV12QPme7EN9

【摆脱卡顿】DeepSeek全网最全的实战技巧！建议收藏～_哔哩哔哩_bilibili