我

我爱自然语言处理

I Love Natural Language Processing

Qwen3-VL 是阿里推出的最先进多模态基础模型，面向文本、图像、PDF、表格、界面（GUI）与视频的统一理 […]

近年来，大语言模型在处理长文本任务中展现出强大能力，但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek […]

近日，美团 LongCat 团队发布了 LongCat-Flash 模型及技术报告，这是一款总参数量达 560 […]

在追求通用人工智能（AGI）的道路上，智能体能力（Agentic）、复杂推理（Reasoning） […]

OpenAI 发布的 gpt-oss-120b 与 gpt-oss-20b 是首批面向开源社区、同时强调“强推 […]

1. 引言：为什么 K2 值得关注？过去两年，大模型的竞争主线从「参数规模」转向「推理深度」再到今天的「智能 […]

近日，Google DeepMind发布了震撼业界的Gemini 2.5系列模型技术报告，标志着大模型技术迈入 […]

一、从“答得好”到“做得成”：Kimi K2 的产品观跃迁过去两年，大模型的竞争主线是知识密度（同等参数下答 […]

一、核心创新：闪电注意力 + 混合架构 1. 闪电注意力（Lightning Attention） 2. 混合 […]

无需蒸馏、抛弃SFT，Mistral用纯强化学习在数学与代码推理任务上实现50%性能飞跃近日，Mistral […]