推理水平对标OpenAI o1！阿里云开源首个AI推理模子QwQ

发布日期：2024-12-25 06:27 点击次数：93

快科技11月28日音讯，今天，阿里云通义团队晓示推出并同步开源了全新的AI推理模子——QwQ-32B-Preview。

评测表示，预览版块的QwQ（Qwen with Questions）在科学推理才能上展现出量度生水平，尤其在数学和编程领域进展超卓，其举座推理才能可与OpenAI的o1相比好意思。

据先容，QwQ是通义千问Qwen大模子最新推出的实践性量度模子，亦然阿里云首个开源的AI推理模子。

阿里云通义千问团队量度发现，当模子有浪费的时分念念考、质疑和反念念时，其对数学和编程的理解就会深化，基于此QwQ获取了科罚复杂问题的交加性进展。

在量度科知识题科罚才能的GPQA评测集聚，QwQ达到了65.2%的准确率，表示出其量度生水平的科学推理才能；在AIME评测中，QwQ以50%的胜率阐发了其科罚数知识题的才能。

在MATH-500评测中，QwQ以90.6%的高分高出了o1-preview和o1-mini。在评估高难度代码生成的LiveCodeBench评测中，QwQ答对了一半的题目，在编程竞赛题场景中也有出色进展。

不仅如斯，QwQ在靠近复杂问题时，大概进行深度内省，质疑自己假定，并通过三念念此后行的自我对话，仔细扫视其推理流程的每一步。

举例，在科罚经典才能题“猜牌问题”时，QwQ通过梳理对话和推演，像个擅长念念考的东说念主雷同，并最终得出正确谜底。

当今，QwQ-32B-Preview已在魔搭社区和HuggingFace等平台上开源，发布短短几小时，引起大众种植者存眷体验。

有种植者以为该模子“是十足莫得预感到的轻易的跃进”、“本年开源领域最紧要的交加”、“让中国在开源大模子和AI推理上占据先机”。

不外通义团队也示意，固然QwQ展现了强大的分析才能，但其也曾个供量度的实践型模子，存在不同说话的搀杂使用、偶有不安妥偏见、对专科领域问题不了解等局限，将来跟着量度潜入模子迭代，这些问题将迟缓得到科罚。

热点资讯