Paper-Dragon

2025/6/9...大约 4 分钟


GPT&DeepSeek模型

GPT系列模型成体系推进

年份事件
2017年谷歌提出Transformer
2018年OpenAI提出GPT(1亿+参数)
2019年GPT - 2(15亿参数)
2020年GPT - 3(1750亿参数)
2021年CodeX(基于GPT - 3,代码预训练)
2021年WebGPT(搜索能力)
2022年2月InstructGPT(人类对齐)
2022年11月ChatGPT(对话能力)
2023年3月GPT - 4(推理能力、多模态能力)
2024年9月o1(深度思考能力提升)
2025年1月o3(深度思考能力进一步增强)
  • 研究视野
  • 技术人员
  • 基础设施
  • 工程实践
  • 数据积累
  • 算法设计

GPT系列模型从18年开始系统迭代,对于大模型发展起到了深远影响

GPT系列模型的技术演变

GPT系列模型发展历程

  • 小模型:GPT-1、GPT-2

  • 大模型:GPT-3、CodeX、GPT-3.5、GPT-4

  • 推理大模型:o-series

image-20250612180148965

GPT-1(1.1亿参数)

  • Decode-Only Transformer架构
  • 预训练后针对特定任务微调

image-20250612180511141

GPT-2(15亿参数)

将任务形式统一为单词预测

  • Pr( ouput |input, task)

预训练与下游任务一致

使用提示进行无监督任务求解

初步尝试了规模扩展

image-20250612180746161

GPT-3(1750亿参数)

涌现出上下文学习能力

image-20250612180922266

CodeX

  • 代码数据训练
  • 推理与代码合成能力

类似多模态

image-20250612181122284

image-20250612181042124

WebGPT

大语言模型使用浏览器

image-20250612181203851

InstructGPT

  • 大预言模型与人类价值观对其
  • 提出RLHF算法

image-20250612181248831

ChatGPT

  • 基于InstructGPT相似技术开发,面向对话进行优化

image-20250612181425607

GPT-4

  • 推理能力显著提升,建立可预测的训练框架
  • 可支持多模态信息的大语言模型

image-20250612181701766、、

GPT-4o

  • 原生多模态模型,综合模态能力显著提升
  • 支持统一处理和输出文本、音频、图片、视频信息

image-20250612181841882

o系列模型

  • 推理任务上能力大幅提升
  • 长思维链推理能力

image-20250612181919030

  • 类似人类“慢思考”过程

image-20250612182001336

DeepSeek系列模型的技术演变

训练框架: HAI-LLM

语言大模型: DeepSeek LLM/V2/V3、Coder/Coder-V2、Math

多模态大模型:DeepSeek-VL

推理大模型:DeepSeek-R1

image-20250612182146103

DeepSeek实现了较好的训练框架与数据准备

训练框架 HAI-LLM(发布于2023年6月)

  • 大规模深度学习训练框架,支持多种并行策略
  • 三代主力模型均基于该框架完成

数据采集

  • V1和Math的报告表明清洗了大规模的Common Crawl,具备超大规模数据处理能力
  • Coder的技术报告表明收集了大量的代码数据
  • Math的技术报告表明清洗收集了大量的数学数据
  • VL的技术报告表明清洗收集了大量多模态、图片数据

DeepSeek进行了重要的网络架构、训练算法、性能优化探索

  • V1探索了scalinglaw分析(考虑了数据质量影响),用于预估超参数性能
  • V2提出了MLA高效注意力机制,提升推理性能
  • V2、V3都针对MoE架构提出了相关稳定性训练策略
  • V3使用了MTP(多token预测)训练
  • Math提出了PPO的改进算法GRPO
  • V3详细介绍Infrastructure的搭建方法,并提出了高效FP8训练方法

DeepSeek-V3

  • 671B参数(37B激活),14.8T训练数据
  • 基于V2的MoE架构,引入了MTP和新的复杂均衡损失
  • 对于训练效率进行了极致优化,共使用2.788MH800GPU时

image-20250612183128860

DeepSeek-R1

image-20250612183250006

DeepSeek-V3和DeepSeek-R1均达到了同期闭源模型的最好效果

image-20250612183458702

为什么DeepSeek会引起世界关注

  • 打破了OpenAI闭源产品的领先时效性

  • 国内追赶GPT-4的时间很长,然而复现o1模型的时间大大缩短

  • 达到了与OpenAI现有API性能可比的水平

  • 中国具备实现世界最前沿大模型的核心技术

  • 模型开源、技术开放

更新日志

  • 4826a-排序 大语言模型
  • df7f7-GPT系列模型的技术演变,DeepSeek系列模型的技术演变
  • fcc33-GPT&DeepSeek模型.md