🍊柑橘 RSS 阅读器 - 鸿蒙首款原生 RSS 阅读器

本文内容来自一次内部分享。主要是对目前非常火的DeepSeek的一些自己的认知和理解。

DeepSeek是什么？

DeepSeek是一个由中国公司推出的媲美ChatGPT o1能力的开源推理大模型，其中文能力更强，而且由于背后公司数据的特点，在金融方面具有优势。

这里所说的推理大模型是相对于之前的非推理模型，更加强化了推理、逻辑分析和决策能力，可以看做是把之前的CoT能力直接做到了模型里。

DeepSeek本身是包括V3和R1两个模型，参数都达到6000亿，也就是现在市面上很多人说的满血版。而DeepSeek开源的几个蒸馏版本的模型其实本质还是qwen和llama，只是用了R1的推理数据做了微调。

DeepSeek生态位

综合了各种榜单和一些评测，并基于公司实际使用的经验，对现在主流的大模型做了如下梯队排名：

在选择模型时需要注意：

开源模型可以私有化部署提供无审查的服务
国内模型在中文上有优势

通过这个梯度，也可以看到DeepSeek并不是能力最强的，但R1确实是国内最好的推理模型。而非推理模型国内的通义千问是能力最强的。这里需要提到的一点就是Kimi其实也和DeepSeek差不多同一时间推出了推理模型的，能力也没有差太多，但由于不是完全开源的，所以被DeepSeek给完全盖住了。

DeepSeek为什么这么火?

如第一部分所说，本质上DeepSeek是一个中国公司做到了O1水平并且开源了的推理大模型。具体来说，之所以它这么火有以下几点：

ChatGPT o1出来后，给业界出了一道题，然后DeepSeek给解出来了，并且是以低成本的方式实现了，甚至还给开源了。
对于国内来说，由于zz原因，很长一段时间是无法使用国外的第一梯队大模型的。所以，有了DeepSeek这种能用的模型，自然是迅速出圈。
对于国外来说，则是高估了领先中国的速度，低估了中国的追赶速度。

为什么是DeepSeek?

国内外很多大模型厂商，为什么是DeepSeek做出来了呢？

DeepSeek背后是幻方量化，这家公司号称多内私募量化四巨头，非常赚钱，有一年就捐了3个亿做慈善。虽然DeepSeek是相对独立的一家公司，但其中的关联肯定小不了，所以大概率是不缺钱的，也不是奔着赚钱去的。因此，可以类似高校一样单纯的做研究。与之相比，Kimi就有商业化的诉求，所以能看到Kimi在大量的投放广告。
DeepSeek的招人门槛很高，虽然创始人是浙大的，但团队成员基本上是清北级别的。
DeepSeek曾号称有国内最多的A100显卡。
创始人梁文峰是很有技术追求的一个人，不管是量化还是大模型，据各种报道，都是自己亲身在一线写代码、写论文的。
我自己的认知，其实OpenAI推出o1后，大家都在研究，都在探索，方法也都有区别，DeepSeek这次做出来是有一点运气成分。

这里还想提的是，春节期间所谓的国运一说，我觉得如果DeepSeek在不长的时间能追上甚至超过o3，那真的可以说国运了。

DeepSeek的创新

DeepSeek由于受限于显卡的性能（H800），通过工程优化上的创新提升了算法效率，从而也大大降低了成本。

DeepSeekMoE：采用了大量细粒度的专家，因此推理时，能大幅降低成本。
负载均衡优化：采用Auxiliary-loss-free算法提高了MoE路由的效率。
内存优化：重计算、使用CPU内存和参数共享
通信优化：DualPipe
计算优化：FP8混合精度训练
其他：MLA(多头潜在注意力)、MTP（多Token预测）、GPRO（强化学习算法）等
NSA：原生稀疏注意力，长文本能力

使用

推理模型是有使用场景的，适合需要深度思考的场景，如设计、审查、推理、复杂计算等。如果让其做一些简单的任务，如实现代码，可能会思考来思考去，反而降低效率。结合推理模型+非推理模型是现在一种常用的方式，如DeepSeek R1 + Claude 3.5 sonnet就是使用R1来做方案设计，使用Claude来写代码。

不同于之前的非推理模型，推理模型的提示词跟侧重于描述清楚任务目标，过多的引导反而是干扰。

此外，通过DeepSeek对蒸馏模型的证明，一些行业模型也可以通过DeekSeek R1的推理数据来微调，实现蒸馏的效果。

本文内容来自一次内部分享。主要是对目前非常火的DeepSeek的一些自己的认知和理解。

DeepSeek是什么？

DeepSeek是一个由中国公司推出的媲美ChatGPT o1能力的开源推理大模型，其中文能力更强，而且由于背后公司数据的特点，在金融方面具有优势。

这里所说的推理大模型是相对于之前的非推理模型，更加强化了推理、逻辑分析和决策能力，可以看做是把之前的CoT能力直接做到了模型里。

DeepSeek生态位

综合了各种榜单和一些评测，并基于公司实际使用的经验，对现在主流的大模型做了如下梯队排名：

在选择模型时需要注意：

开源模型可以私有化部署提供无审查的服务
国内模型在中文上有优势

DeepSeek为什么这么火?

如第一部分所说，本质上DeepSeek是一个中国公司做到了O1水平并且开源了的推理大模型。具体来说，之所以它这么火有以下几点：

ChatGPT o1出来后，给业界出了一道题，然后DeepSeek给解出来了，并且是以低成本的方式实现了，甚至还给开源了。
对于国内来说，由于zz原因，很长一段时间是无法使用国外的第一梯队大模型的。所以，有了DeepSeek这种能用的模型，自然是迅速出圈。
对于国外来说，则是高估了领先中国的速度，低估了中国的追赶速度。

为什么是DeepSeek?

国内外很多大模型厂商，为什么是DeepSeek做出来了呢？

DeepSeek背后是幻方量化，这家公司号称多内私募量化四巨头，非常赚钱，有一年就捐了3个亿做慈善。虽然DeepSeek是相对独立的一家公司，但其中的关联肯定小不了，所以大概率是不缺钱的，也不是奔着赚钱去的。因此，可以类似高校一样单纯的做研究。与之相比，Kimi就有商业化的诉求，所以能看到Kimi在大量的投放广告。
DeepSeek的招人门槛很高，虽然创始人是浙大的，但团队成员基本上是清北级别的。
DeepSeek曾号称有国内最多的A100显卡。
创始人梁文峰是很有技术追求的一个人，不管是量化还是大模型，据各种报道，都是自己亲身在一线写代码、写论文的。
我自己的认知，其实OpenAI推出o1后，大家都在研究，都在探索，方法也都有区别，DeepSeek这次做出来是有一点运气成分。

这里还想提的是，春节期间所谓的国运一说，我觉得如果DeepSeek在不长的时间能追上甚至超过o3，那真的可以说国运了。

DeepSeek的创新

DeepSeek由于受限于显卡的性能（H800），通过工程优化上的创新提升了算法效率，从而也大大降低了成本。

DeepSeekMoE：采用了大量细粒度的专家，因此推理时，能大幅降低成本。
负载均衡优化：采用Auxiliary-loss-free算法提高了MoE路由的效率。
内存优化：重计算、使用CPU内存和参数共享
通信优化：DualPipe
计算优化：FP8混合精度训练
其他：MLA(多头潜在注意力)、MTP（多Token预测）、GPRO（强化学习算法）等
NSA：原生稀疏注意力，长文本能力

使用

不同于之前的非推理模型，推理模型的提示词跟侧重于描述清楚任务目标，过多的引导反而是干扰。

此外，通过DeepSeek对蒸馏模型的证明，一些行业模型也可以通过DeekSeek R1的推理数据来微调，实现蒸馏的效果。

本文内容来自一次内部分享。主要是对目前非常火的DeepSeek的一些自己的认知和理解。

DeepSeek是什么？

DeepSeek是一个由中国公司推出的媲美ChatGPT o1能力的开源推理大模型，其中文能力更强，而且由于背后公司数据的特点，在金融方面具有优势。

这里所说的推理大模型是相对于之前的非推理模型，更加强化了推理、逻辑分析和决策能力，可以看做是把之前的CoT能力直接做到了模型里。

DeepSeek生态位

综合了各种榜单和一些评测，并基于公司实际使用的经验，对现在主流的大模型做了如下梯队排名：

在选择模型时需要注意：

开源模型可以私有化部署提供无审查的服务
国内模型在中文上有优势

DeepSeek为什么这么火?

如第一部分所说，本质上DeepSeek是一个中国公司做到了O1水平并且开源了的推理大模型。具体来说，之所以它这么火有以下几点：

ChatGPT o1出来后，给业界出了一道题，然后DeepSeek给解出来了，并且是以低成本的方式实现了，甚至还给开源了。
对于国内来说，由于zz原因，很长一段时间是无法使用国外的第一梯队大模型的。所以，有了DeepSeek这种能用的模型，自然是迅速出圈。
对于国外来说，则是高估了领先中国的速度，低估了中国的追赶速度。

为什么是DeepSeek?

国内外很多大模型厂商，为什么是DeepSeek做出来了呢？

DeepSeek背后是幻方量化，这家公司号称多内私募量化四巨头，非常赚钱，有一年就捐了3个亿做慈善。虽然DeepSeek是相对独立的一家公司，但其中的关联肯定小不了，所以大概率是不缺钱的，也不是奔着赚钱去的。因此，可以类似高校一样单纯的做研究。与之相比，Kimi就有商业化的诉求，所以能看到Kimi在大量的投放广告。
DeepSeek的招人门槛很高，虽然创始人是浙大的，但团队成员基本上是清北级别的。
DeepSeek曾号称有国内最多的A100显卡。
创始人梁文峰是很有技术追求的一个人，不管是量化还是大模型，据各种报道，都是自己亲身在一线写代码、写论文的。
我自己的认知，其实OpenAI推出o1后，大家都在研究，都在探索，方法也都有区别，DeepSeek这次做出来是有一点运气成分。

这里还想提的是，春节期间所谓的国运一说，我觉得如果DeepSeek在不长的时间能追上甚至超过o3，那真的可以说国运了。

DeepSeek的创新

DeepSeek由于受限于显卡的性能（H800），通过工程优化上的创新提升了算法效率，从而也大大降低了成本。

DeepSeekMoE：采用了大量细粒度的专家，因此推理时，能大幅降低成本。
负载均衡优化：采用Auxiliary-loss-free算法提高了MoE路由的效率。
内存优化：重计算、使用CPU内存和参数共享
通信优化：DualPipe
计算优化：FP8混合精度训练
其他：MLA(多头潜在注意力)、MTP（多Token预测）、GPRO（强化学习算法）等
NSA：原生稀疏注意力，长文本能力

使用

不同于之前的非推理模型，推理模型的提示词跟侧重于描述清楚任务目标，过多的引导反而是干扰。

此外，通过DeepSeek对蒸馏模型的证明，一些行业模型也可以通过DeekSeek R1的推理数据来微调，实现蒸馏的效果。