Kimi K2 登顶全球开源模型榜首,12项开源任务性能领先

 

 

7 11 日, Moonshot AI 正式发布并开源了 Kimi K2 模型。作为基于 MoE 架构的基础模型,其以 “Agentic AI” 为核心定位,总参数达 1 万亿、激活参数 320 亿,并非简单的聊天工具,而是能理解复杂意图、拆解任务并自主调用工具的 数字员工 ,可高效完成多步骤复杂流程。

 

核心性能:12 SOTA 横扫三大赛道,多项指标比肩闭源模型

Kimi K2 在多个关键领域展现出强大实力,一举获得 12 项开源 SOTA 。在代码、数学、工具调用这三大核心赛道上超越 DeepSeek - V3 DeepSeek - R1 等顶尖开源模型。

 

•  代码生成:高效理解编程需求,生成高质量、高可读性代码,显著提升开发效率;

•  数学推理:精准应对复杂运算与逻辑推理任务,输出可靠解答;

•  工具调用:快速稳定调用各类工具,实现复杂任务自动化处理。

 

在闭源模型对比中,其表现同样亮眼:

•  多轮对话全球第一。

•  硬提示、编程任务全球第二。

•  长查询全球第五。

•  数学、创意写作、指令遵循全球第七。

 

技术创新

Kimi K2 采用稀疏 MoE 架构,通过动态激活专家模块提升参数利用率:总参数量 1 万亿,含 384 个专家,每个 token 动态选择 8 个专家计算,另设 1 个共享专家增强通用性,激活参数稳定在 320 亿。

 

训练层面,其采用改进的 MuonClip 优化器,有效解决大规模训练中梯度不稳定与收敛难题,支持模型在 15.5 万亿 tokens 的预训练规模下稳定运行,避免 训练崩溃 ;同时, 128K 的最大上下文长度,使其在长文档理解、长对话及大规模检索任务中具备显著优势。

 

应用优势

•  编程领域:在 LiveCodeBench 互动式编程基准测试中准确率达 53.7% (超越 GPT-4.1 44.7% ), OJBench 竞赛题测试得分 27.1% ,印证对软件工程场景的深度适配;前端开发中,可生成含粒子系统、 3D 场景的交互性代码,兼具设计感与视觉表现力。

•  Agent 工具调用:能稳定解析复杂指令并拆解为可执行的 ToolCall 结构,在 SWE-bench Verified 代码错误修复测试中单次尝试准确率 65.8% ,比肩部分专有模型;可处理 13 万行数据并生成带专业图表的分析报告。

•  多任务综合能力:Tau2-bench 加权值 66.1% (复杂 STEM 任务)、 AceBench (英文)准确率 80.1% (语言理解与生成)、 MMLU-Pro 多语言测试领先(跨学科能力), AIME 数学测评优于同类模型(深度建模潜力),同时登顶 EQ-Bench3 Creative Writing v3 (情商与创意写作)。

 

数据是 Kimi K2 能力的核心支撑: 15.5 万亿 tokens 的预训练数据奠定认知基础,而 Agentic Tool Use 合成数据则赋予其执行复杂现实任务的能力。二者的规模、质量与复杂性持续精进,推动模型在核心领域不断突破,向 可信赖数字同事 演进。

 

 

关于景联文

景联文科技为政府、企业客户提供高质量数据生产运营服务。结合市场AI 模型需求,提供从数据汇聚、数据治理、语料开发、语料沉淀、语料交易的全链条 一站式数据服务 ,帮助客户释放数据价值。依托景联文 SolarSense 语料工程平台,解决数据价值落地 最后一公里 难题,赋能企业人工智能、政府人工智能、生成式人工智能使用语料。

 

公司将继续秉持 成为人工智能的核心引擎,让每一比特数据释放 AI 的无限可能 企业愿景,为中国 AI 崛起提供高质量数据集!


请使用浏览器的分享功能分享到微信等