我爱自然语言处理

I Love Natural Language Processing

DeepSeek-V3.2-Exp:用稀疏注意力实现更高效的长上下文推理

近年来,大语言模型在处理长文本任务中展现出强大能力,但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek […]

2025/9/30
articleCard.readMore

LongCat-Flash:美团发布的高效MoE大模型,支持智能体任务,推理速度达100 token/秒

近日,美团 LongCat 团队发布了 LongCat-Flash 模型及技术报告,这是一款总参数量达 560 […]

2025/9/1
articleCard.readMore

GLM-4.5:三体合一的开源智能体大模型,重新定义AI推理边界

在追求通用人工智能(AGI)的道路上,智能体能力(Agentic)、复杂推理(Reasoning)  […]

2025/8/11
articleCard.readMore

OpenAI gpt-oss-120b & gpt-oss-20b 模型技术报告英中对照版

OpenAI 发布的 gpt-oss-120b 与 gpt-oss-20b 是首批面向开源社区、同时强调“强推 […]

2025/8/6
articleCard.readMore

从万亿参数到智能体:Kimi K2 技术报告全景解读

1. 引言:为什么 K2 值得关注? 过去两年,大模型的竞争主线从「参数规模」转向「推理深度」再到今天的「智能 […]

2025/7/22
articleCard.readMore

解码Google Gemini 2.5:推理、多模态与智能体能力的革命性突破

近日,Google DeepMind发布了震撼业界的Gemini 2.5系列模型技术报告,标志着大模型技术迈入 […]

2025/7/15
articleCard.readMore

深度解析Kimi K2:当 1T 参数不再只是“大”,而是“能动手”的开放智能体

一、从“答得好”到“做得成”:Kimi K2 的产品观跃迁 过去两年,大模型的竞争主线是知识密度(同等参数下答 […]

2025/7/12
articleCard.readMore

MiniMax-M1:闪电注意力重塑大模型推理效率,百万上下文时代来临,附技术报告英中对照版

一、核心创新:闪电注意力 + 混合架构 1. 闪电注意力(Lightning Attention) 2. 混合 […]

2025/7/3
articleCard.readMore

Mistral Magistral:纯强化学习炼就的推理引擎,颠覆LLM训练范式

无需蒸馏、抛弃SFT,Mistral用纯强化学习在数学与代码推理任务上实现50%性能飞跃 近日,Mistral […]

2025/6/11
articleCard.readMore

小红书dots.llm1:重新定义MoE效率边界,14B激活参数挑战72B密集模型极限

核心突破:极简激活的超级大脑 三大技术支柱撑起SOTA表现 1. 数据工程:11.2T高质量token的炼金术 […]

2025/6/11
articleCard.readMore