本文内容来自一次内部分享。主要是对目前非常火的DeepSeek的一些自己的认知和理解。
DeepSeek是一个由中国公司推出的媲美ChatGPT o1能力的开源推理大模型,其中文能力更强,而且由于背后公司数据的特点,在金融方面具有优势。
这里所说的推理大模型是相对于之前的非推理模型,更加强化了推理、逻辑分析和决策能力,可以看做是把之前的CoT能力直接做到了模型里。
DeepSeek本身是包括V3和R1两个模型,参数都达到6000亿,也就是现在市面上很多人说的满血版。而DeepSeek开源的几个蒸馏版本的模型其实本质还是qwen和llama,只是用了R1的推理数据做了微调。
综合了各种榜单和一些评测,并基于公司实际使用的经验,对现在主流的大模型做了如下梯队排名:

在选择模型时需要注意:
通过这个梯度,也可以看到DeepSeek并不是能力最强的,但R1确实是国内最好的推理模型。而非推理模型国内的通义千问是能力最强的。这里需要提到的一点就是Kimi其实也和DeepSeek差不多同一时间推出了推理模型的,能力也没有差太多,但由于不是完全开源的,所以被DeepSeek给完全盖住了。
如第一部分所说,本质上DeepSeek是一个中国公司做到了O1水平并且开源了的推理大模型。具体来说,之所以它这么火有以下几点:
国内外很多大模型厂商,为什么是DeepSeek做出来了呢?
这里还想提的是,春节期间所谓的国运一说,我觉得如果DeepSeek在不长的时间能追上甚至超过o3,那真的可以说国运了。
DeepSeek由于受限于显卡的性能(H800),通过工程优化上的创新提升了算法效率,从而也大大降低了成本。
推理模型是有使用场景的,适合需要深度思考的场景,如设计、审查、推理、复杂计算等。如果让其做一些简单的任务,如实现代码,可能会思考来思考去,反而降低效率。结合推理模型+非推理模型是现在一种常用的方式,如DeepSeek R1 + Claude 3.5 sonnet就是使用R1来做方案设计,使用Claude来写代码。
不同于之前的非推理模型,推理模型的提示词跟侧重于描述清楚任务目标,过多的引导反而是干扰。
此外,通过DeepSeek对蒸馏模型的证明,一些行业模型也可以通过DeekSeek R1的推理数据来微调,实现蒸馏的效果。
本文内容来自一次内部分享。主要是对目前非常火的DeepSeek的一些自己的认知和理解。
DeepSeek是一个由中国公司推出的媲美ChatGPT o1能力的开源推理大模型,其中文能力更强,而且由于背后公司数据的特点,在金融方面具有优势。
这里所说的推理大模型是相对于之前的非推理模型,更加强化了推理、逻辑分析和决策能力,可以看做是把之前的CoT能力直接做到了模型里。
DeepSeek本身是包括V3和R1两个模型,参数都达到6000亿,也就是现在市面上很多人说的满血版。而DeepSeek开源的几个蒸馏版本的模型其实本质还是qwen和llama,只是用了R1的推理数据做了微调。
综合了各种榜单和一些评测,并基于公司实际使用的经验,对现在主流的大模型做了如下梯队排名:

在选择模型时需要注意:
通过这个梯度,也可以看到DeepSeek并不是能力最强的,但R1确实是国内最好的推理模型。而非推理模型国内的通义千问是能力最强的。这里需要提到的一点就是Kimi其实也和DeepSeek差不多同一时间推出了推理模型的,能力也没有差太多,但由于不是完全开源的,所以被DeepSeek给完全盖住了。
如第一部分所说,本质上DeepSeek是一个中国公司做到了O1水平并且开源了的推理大模型。具体来说,之所以它这么火有以下几点:
国内外很多大模型厂商,为什么是DeepSeek做出来了呢?
这里还想提的是,春节期间所谓的国运一说,我觉得如果DeepSeek在不长的时间能追上甚至超过o3,那真的可以说国运了。
DeepSeek由于受限于显卡的性能(H800),通过工程优化上的创新提升了算法效率,从而也大大降低了成本。
推理模型是有使用场景的,适合需要深度思考的场景,如设计、审查、推理、复杂计算等。如果让其做一些简单的任务,如实现代码,可能会思考来思考去,反而降低效率。结合推理模型+非推理模型是现在一种常用的方式,如DeepSeek R1 + Claude 3.5 sonnet就是使用R1来做方案设计,使用Claude来写代码。
不同于之前的非推理模型,推理模型的提示词跟侧重于描述清楚任务目标,过多的引导反而是干扰。
此外,通过DeepSeek对蒸馏模型的证明,一些行业模型也可以通过DeekSeek R1的推理数据来微调,实现蒸馏的效果。