后

后端技术杂谈

DeepSeek简单分享

本文内容来自一次内部分享。主要是对目前非常火的DeepSeek的一些自己的认知和理解。 DeepSeek是什么？ DeepSeek是一个由中国公司推出的媲美ChatGPT o1能力的开源推理大模型，其中文能力更强，而且由于背后公司数据的特点，在金融方面具有优势。这里所说的推理大模型是相对于之前的非推理模型，更加强化了推理、逻辑分析和决策能力，可以看做是把之前的CoT能力直接做到了模型里。 DeepSeek本身是包括V3和R1两个模型，参数都达到6000亿，也就是现在市面上很多人说的满血版。而DeepSeek开源的几个蒸馏版本的模型其实本质还是qwen和llama，只是用了R1的推理数据做了微调。 DeepSeek生态位综合了各种榜单和一些评测，并基于公司实际使用的经验，对现在主流的大模型做了如下梯队排名：在选择模型时需要注意：开源模型可以私有化部署提供无审查的服务国内模型在中文上有优势通过这个梯度，也可以看到DeepSeek并不是能力最强的，但R1确实是国内最好的推理模型。而非推理模型国内的通义千问是能力最强的。这里需要提到的一点就是Kimi其实也和DeepSeek差不多同一时间推出了推理模型的，能力也没有差太多，但由于不是完全开源的，所以被DeepSeek给完全盖住了。 DeepSeek为什么这么火? 如第一部分所说，本质上DeepSeek是一个中国公司做到了O1水平并且开源了的推理大模型。具体来说，之所以它这么火有以下几点： ChatGPT o1出来后，给业界出了一道题，然后DeepSeek给解出来了，并且是以低成本的方式实现了，甚至还给开源了。对于国内来说，由于zz原因，很长一段时间是无法使用国外的第一梯队大模型的。所以，有了DeepSeek这种能用的模型，自然是迅速出圈。对于国外来说，则是高估了领先中国的速度，低估了中国的追赶速度。为什么是DeepSeek? 国内外很多大模型厂商，为什么是DeepSeek做出来了呢？ DeepSeek背后是幻方量化，这家公司号称多内私募量化四巨头，非常赚钱，有一年就捐了3个亿做慈善。虽然DeepSeek是相对独立的一家公司，但其中的关联肯定小不了，所以大概率是不缺钱的，也不是奔着赚钱去的。因此，可以类似高校一样单纯的做研究。与之相比，Kimi就有商业化的诉求，所以能看到Kimi在大量的投放广告。 DeepSeek的招人门槛很高，虽然创始人是浙大的，但团队成员基本上是清北级别的。 DeepSeek曾号称有国内最多的A100显卡。创始人梁文峰是很有技术追求的一个人，不管是量化还是大模型，据各种报道，都是自己亲身在一线写代码、写论文的。我自己的认知，其实OpenAI推出o1后，大家都在研究，都在探索，方法也都有区别，DeepSeek这次做出来是有一点运气成分。这里还想提的是，春节期间所谓的国运一说，我觉得如果DeepSeek在不长的时间能追上甚至超过o3，那真的可以说国运了。 DeepSeek的创新 DeepSeek由于受限于显卡的性能（H800），通过工程优化上的创新提升了算法效率，从而也大大降低了成本。 DeepSeekMoE：采用了大量细粒度的专家，因此推理时，能大幅降低成本。负载均衡优化：采用Auxiliary-loss-free算法提高了MoE路由的效率。内存优化：重计算、使用CPU内存和参数共享通信优化：DualPipe 计算优化：FP8混合精度训练其他：MLA(多头潜在注意力)、MTP（多Token预测）、GPRO（强化学习算法）等 NSA：原生稀疏注意力，长文本能力使用推理模型是有使用场景的，适合需要深度思考的场景，如设计、审查、推理、复杂计算等。如果让其做一些简单的任务，如实现代码，可能会思考来思考去，反而降低效率。结合推理模型+非推理模型是现在一种常用的方式，如DeepSeek R1 + Claude 3.5 sonnet就是使用R1来做方案设计，使用Claude来写代码。不同于之前的非推理模型，推理模型的提示词跟侧重于描述清楚任务目标，过多的引导反而是干扰。此外，通过DeepSeek对蒸馏模型的证明，一些行业模型也可以通过DeekSeek R1的推理数据来微调，实现蒸馏的效果。

后端技术杂谈

DeepSeek简单分享

美国AI之旅

CTO都必须是程序员出身吗？为什么架构师做不了CTO？

不同的CTO角色 by Werner Vogels (Amazon CTO)

如何使用AI生成长视频？

AI技术概览（PPT版）

这三年的一些感悟

Langchain代理和OpenAI函数调用的区别

【译】如何基于开源技术构建类似ChatGPT的聊天机器人

Web3学习笔记-Web3是什么？

架构简明指南2022最新版

阅文笔记202205

我的2021

做游戏业务以来的一些感悟

阿里巴巴管理三板斧

我的2020

研发效能杂谈

项目管理标准模板

你要成为什么样的人？

持续交付这点事

后端技术杂谈

DeepSeek简单分享

美国AI之旅

CTO都必须是程序员出身吗？为什么架构师做不了CTO？

不同的CTO角色 by Werner Vogels (Amazon CTO)

如何使用AI生成长视频？

AI技术概览（PPT版）

这三年的一些感悟

Langchain代理和OpenAI函数调用的区别

【译】如何基于开源技术构建类似ChatGPT的聊天机器人

Web3学习笔记-Web3是什么？

架构简明指南2022最新版

阅文笔记202205

我的2021

做游戏业务以来的一些感悟

阿里巴巴管理三板斧

我的2020

研发效能杂谈

项目管理标准模板

你要成为什么样的人？

持续交付这点事

后端技术杂谈

DeepSeek简单分享

美国AI之旅

CTO都必须是程序员出身吗？为什么架构师做不了CTO？

不同的CTO角色 by Werner Vogels (Amazon CTO)

如何使用AI生成长视频？

AI技术概览（PPT版）

这三年的一些感悟

Langchain代理和OpenAI函数调用的区别

【译】如何基于开源技术构建类似ChatGPT的聊天机器人

Web3学习笔记-Web3是什么？

架构简明指南2022最新版

阅文笔记202205

我的2021

做游戏业务以来的一些感悟

阿里巴巴管理三板斧

我的2020

研发效能杂谈

项目管理标准模板

你要成为什么样的人？

持续交付这点事