# 8.5 DeepSeek 是什么：从小创业到 AI 独角兽

> 理解一个 AI 公司如何在不到 5 年内从无到有，挑战全球巨头

## 8.5.1 DeepSeek 的三个版本

要理解 DeepSeek，需要知道它不是一个“模型”，而是一个“产品系列”。

```
DeepSeek的演化：

DeepSeek V1（2023年底）
└─ 开源模型，初次亮相
└─ 性能：不错，但不突出

DeepSeek V2（2024年中）
└─ 升级版本
└─ MLA架构首次亮相
└─ 开始被关注

DeepSeek V3（2024-12）
└─ 最新基础版本，也是最强基础模型
└─ 多个新创新
└─ 官方报告中在多项基准与GPT-4 Turbo相当
└─ 一次代表性训练运行显示成本相对低廉

DeepSeek-R1（2025年01月20日）
└─ 推理模型版本
└─ 官方报告称在推理任务上与o1竞争
└─ 开源权重与托管API成本相对低廉
```

## 8.5.2 为什么叫“DeepSeek”？

名字的含义：

* **Deep**：深入思考和研究
* **Seek**：探求真理和最优方案

公司的理念就体现在名字里：不是最快推出产品，而是最深入地理解问题。

## 8.5.3 DeepSeek 公司的背景

### 创始人和融资

```
创始人：梁文锋
背景：
├─ DeepSeek 创始人兼 CEO
├─ 也是量化机构 High-Flyer 的联合创始人之一
├─ 公司早期发展与 High-Flyer 的团队和算力积累密切相关
└─ 以低成本高性能模型路线受到行业关注

融资历程：
└─ 公开资料未见清晰的种子轮 / A 轮融资披露
└─ 早期发展更常被描述为依托既有团队与资源积累
└─ 外部融资细节并非其公开叙事重点

总融资：公开口径有限，不宜与 OpenAI 直接按融资轮次类比
但足以支持AI研究
```

### 公司规模和位置

```
公司规模：
├─ 员工数：数百人（对比OpenAI的千人规模）
├─ 研究团队：专业的深度学习团队
└─ 工程团队：高效的实现和优化

位置：中国（杭州）
└─ 访问中国的算力资源
└─ 但也面临出口管制的挑战
└─ 创新性地在这些约束下工作
```

## 8.5.4 DeepSeek 的战略选择

### 选择 1：开源而非闭源

```
这是关键的战略决定：

闭源的好处：
├─ 可以完全控制产品
├─ 可以通过API收费
└─ 不担心竞争对手直接复制

开源的好处：
├─ 获得社区的信任和支持
├─ 加快创新（社区贡献）
├─ 建立品牌和影响力
├─ 长期的商业机会（企业版、咨询）
└─ 对抗"AI垄断"的叙事

DeepSeek的选择：
开放核心权重路线，同时保留官方托管 API。

这意味着：
- 研究者和开发者可以下载公开发布的模型或 Distill 版本做本地部署与二次开发
- 普通用户和企业也可以直接使用官方托管 API
- "是否免费"取决于你选择的是本地自部署，还是官方/第三方托管服务

为什么这很勇敢？
└─ 意味着无法通过模型本身直接获利
└─ 意味着竞争对手可以直接使用你的研究
└─ 意味着相信长期价值而不是短期收入
```

### 选择 2：专注于效率而非规模

```
大多数AI公司的策略：
更大的模型 = 更好的性能
不断增加参数和数据

DeepSeek的策略：
相同性能下，最小化成本和资源

这导致了一系列的架构创新：
├─ MLA（多头潜在注意力）
├─ MoE（专家混合）
├─ 高效的训练流程
└─ 智能的数据选择
```

### 选择 3：推理与基础模型并行

```
大多数公司：
先做基础模型（如GPT-4）
然后才考虑推理模型（如o1）

DeepSeek的速度：
V3和R1几乎同时推出
意味着：
├─ 强大的研究能力
├─ 快速的迭代周期
├─ 对推理问题的早期关注
```

## 8.5.5 DeepSeek 的成功指标

### 性能对标

```
更稳妥的结论应该是：

- DeepSeek 在官方技术报告披露的多项评测中进入了第一梯队
- 它在若干数学、代码和综合推理任务上，已经足以与当时的主流闭源强模型正面对比
- 但跨厂商横向分数很容易受到评测版本、采样设置、提示词和披露口径影响

因此，对入门读者来说，最重要的不是死记某个百分比，
而是理解：DeepSeek 证明了"高性能 + 高效率"可以在一次代表性训练运行中同时成立。
```

### 用户采纳

```
DeepSeek的关注度增长非常快：

- 技术社区对其论文、开放权重和推理能力高度关注
- 社交媒体与开发者社区的讨论在短期内迅速升温
- 但若没有统一、可核对的官方口径，不宜把月度用户增长曲线写成精确数字
```

## 8.5.6 DeepSeek 与中国 AI 生态的关系

### 中国 AI 的现状

```
中国的AI模型：
├─ 通义千问（阿里）：商用为主
├─ 文心一言（百度）：商用为主
├─ Kimi（月之暗面）：注重长上下文
└─ DeepSeek：注重开源和效率

DeepSeek的独特点：
└─ 采取更开放的权重与生态路线，国际导向明显
└─ 强调技术创新而非商业优先
└─ 获得国际研究社区的高度关注

这改变了国际社会对"中国AI"的认知：
从"本地化的模仿"
到"技术创新的领导者"
```

### 地缘政治的考量

```
DeepSeek面临的挑战：

芯片限制：
├─ 美国对中国实施芯片出口管制
├─ 限制高端GPU的使用
└─ DeepSeek必须在这些约束下创新

但DeepSeek的成功表明：
├─ 算法创新可以弥补硬件限制
├─ 高效的设计可以用更少资源做更多事
└─ 这对全球AI产业有深远影响
```

## 8.5.7 DeepSeek 的商业模式

### 如何盈利（虽然开源）？

```
短期收入：
├─ API服务（DeepSeek API）
│  └─ 在不少场景下价格明显低于头部闭源推理服务，但应以当期官方价格页为准
├─ 企业付费版本
│  └─ 高级支持、定制化、部署协助
└─ 研究和咨询

长期价值：
├─ 品牌和影响力
│  └─ 成为全球AI研究的参考
├─ 人才吸引
│  └─ 顶级研究人员想为这样的公司工作
├─ 技术积累
│  └─ 建立长期的技术领导地位
└─ 生态建设
   └─ 在开源模型上构建的整个生态
```

### 为什么这个模式可行？

```
与传统软件的对比：

传统模式：
├─ 开发私有软件
├─ 收费给用户
└─ 利润高但用户有限

开源模式：
├─ 开发开源软件
├─ 通过服务赚钱（支持、云托管、企业版）
└─ 利润可能更高（因为用户基数大）

例子：
└─ Linux：完全开源，但红帽靠支持赚数十亿
└─ Python：完全开源，但相关服务价值巨大
└─ DeepSeek：更接近"开放权重 + 托管服务 + 生态扩展"的组合路线

关键：制造极好的产品，然后围绕它提供价值
```

## 8.5.8 本节小结

DeepSeek 的成功不是侥幸，而是战略和执行的结果：

* **战略选择**：开源、注重效率而非规模
* **技术创新**：MLA、MoE 等突破性架构
* **快速迭代**：从 V1 到 R1 的快速发展
* **国际视野**：面向全球，而非仅国内市场

这开启了 AI 产业的新可能：

* 除了超大融资和闭源规模路线，也可以通过架构效率、工程优化和开放生态进入第一梯队
* 开源和闭源不必对立，可以共存
* 效率和创新可能比规模更重要

DeepSeek 证明了 AI 产业还有更多的玩法。

## 8.5.9 思考题

1. 为什么 DeepSeek 敢于完全开源？有什么长期风险吗？
2. 如果 DeepSeek 的模型可以本地运行（不需要云），这对 OpenAI 的商业模式意味着什么？
3. DeepSeek 的成功是否意味着“大公司的 AI 优势”消失了？


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://yeasy.gitbook.io/ai_beginner_guide/di-er-bu-fen-he-xin-ji-shu-jie-xi/08_new_architectures/8.5_deepseek_story.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.