大模型谁最“可靠”？SuperCLUE-CPIF测评出炉，文心X1.1国内第一

10月21日，中文精确指令遵循测评基准（SuperCLUE-CPIF）正式发布，文心X1.1以75.51分位居国产大模型第一，在任务类型、指令数量两类划分中均为国内榜首，文心X1.1在实际生产环境中应用具有显著优势。本次测评涵盖GPT-5(high)、DeepSeek-V3.2-Exp-Thinking、Claude-Sonnet-4.5-Reasoning、Gemini-2.5-Pro等共10个国内外模...