DeepSeek-V3.2-Exp:用稀疏注意力实现更高效的长上下文推理
近年来,大语言模型在处理长文本任务中展现出强大能力,但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek […]
近年来,大语言模型在处理长文本任务中展现出强大能力,但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek […]
近日,美团 LongCat 团队发布了 LongCat-Flash 模型及技术报告,这是一款总参数量达 560 […]
在追求通用人工智能(AGI)的道路上,智能体能力(Agentic)、复杂推理(Reasoning) […]
OpenAI 发布的 gpt-oss-120b 与 gpt-oss-20b 是首批面向开源社区、同时强调“强推 […]
1. 引言:为什么 K2 值得关注? 过去两年,大模型的竞争主线从「参数规模」转向「推理深度」再到今天的「智能 […]
近日,Google DeepMind发布了震撼业界的Gemini 2.5系列模型技术报告,标志着大模型技术迈入 […]
一、从“答得好”到“做得成”:Kimi K2 的产品观跃迁 过去两年,大模型的竞争主线是知识密度(同等参数下答 […]
一、核心创新:闪电注意力 + 混合架构 1. 闪电注意力(Lightning Attention) 2. 混合 […]
无需蒸馏、抛弃SFT,Mistral用纯强化学习在数学与代码推理任务上实现50%性能飞跃 近日,Mistral […]
核心突破:极简激活的超级大脑 三大技术支柱撑起SOTA表现 1. 数据工程:11.2T高质量token的炼金术 […]
近年来,大语言模型在处理长文本任务中展现出强大能力,但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek […]
近日,美团 LongCat 团队发布了 LongCat-Flash 模型及技术报告,这是一款总参数量达 560 […]
在追求通用人工智能(AGI)的道路上,智能体能力(Agentic)、复杂推理(Reasoning) […]
OpenAI 发布的 gpt-oss-120b 与 gpt-oss-20b 是首批面向开源社区、同时强调“强推 […]
1. 引言:为什么 K2 值得关注? 过去两年,大模型的竞争主线从「参数规模」转向「推理深度」再到今天的「智能 […]
近日,Google DeepMind发布了震撼业界的Gemini 2.5系列模型技术报告,标志着大模型技术迈入 […]
一、从“答得好”到“做得成”:Kimi K2 的产品观跃迁 过去两年,大模型的竞争主线是知识密度(同等参数下答 […]
一、核心创新:闪电注意力 + 混合架构 1. 闪电注意力(Lightning Attention) 2. 混合 […]
无需蒸馏、抛弃SFT,Mistral用纯强化学习在数学与代码推理任务上实现50%性能飞跃 近日,Mistral […]
核心突破:极简激活的超级大脑 三大技术支柱撑起SOTA表现 1. 数据工程:11.2T高质量token的炼金术 […]