Qwen版o1发布即开源!32B参数并排OpenAI o1-mini,一手实测在此

Qwen版o1发布即开源!32B参数并排OpenAI o1-mini,一手实测在此

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

通义千问版o1来了,照旧开源的!

夜深,通义团队片刻上线推理模子QwQ,参数目只消32B,在GPQA上打败了o1-mini。

咫尺,QwQ的模子权重已在HuggingFace和魔搭社区上发布,还不错径直在线试玩。

Ollama、Together.ai等大模子平台也赶快跟进,第一时辰晓谕撑捏QwQ运行。

还有网友实测发现,对于我方手中的一齐化学臆测题,QwQ是除了o1除外独一能答对的。

此外有网友指出,QwQ预览版参数目只消32B,这意味着o1水平的推理模子,在土产货就能运行了。

推理才气尚可,但简陋度需加强

按照官方放出的收获,QwQ、o1-preview和o1-mini在GPQA(科学推理)、AIME、MATH-500(数学)以及LiveCodeBench(代码)四个数据连合各有赢输,但举座水平比较接近。

而比较GPT-4o、Claude 3.5 Sonnet和自家的Qwen2.5,跳动上风就比较彰着了。

至于QwQ的本色推理才气到底怎样,咱们就拿o1-mini对比着测试一下~

最初是官方展示的一齐逻辑推理题目:

对于这个问题,QwQ用了足足两千多字进行了分析,这是其中的中枢想路:

之后,QwQ开动了近乎列举式的分析方法,一张一张牌地来判断,但好在最终获取的完毕是正确的。

比较之下,o1-mini的复兴就显得止境简陋了。

再来一齐经典的逻辑题,神机妙算QwQ又写起了小作文,何况此次更甚,有4千多字,何况一经是主打一个“试”。

经过对列出情况的一一尝试和检讨,一段时辰后获取了临了的正确谜底。

再望望o1-mini,用很浅易的笔墨就把问题阐发了,推理恶果要高得多。

天然QwQ阐发得详备些不是赖事,但中间的子虚尝试对于发问者而言就显得有些满盈了。

除了基础逻辑,再来望望QwQ的数学水平怎样,先来几谈考研数学题试试。

第一题对于微分方程,题目是这么的,咱们稍作了改革,条款模子以x=_的方法输出:

QwQ一经遴选了婉曲无物的作答方法,整串复兴有快要1400字。

不外仔细看会发现,QwQ的中间历程出现了失败,然后又改用了其他的方法。

折腾了一番之后,完毕倒也莫得错。

而o1-mini的复兴一经保捏简陋。

即使把o1-mini默许不露出的“想考历程”展示出来,一经是莫得QwQ的复兴那么长。

第二谈题目是线性代数题,这谈题咱们也作念了修改,从领受题改成了径直求A³的迹:

此次比较之前,QwQ的复兴要简陋一些,但照旧有上千字,天然完毕一经是对的,o1-mini也一经保捏简陋。

第三谈题对于概率论,情况简略和前边两谈访佛,这里就径直上图:

(QwQ方框中的谜底把根号漏了,不外这里是露出问题,从正文看谜底是正确的)

除了这么的纯数学题目,情状式的数知识题亦然教训模子才气的一项穷苦表率。

是以这里咱们领受了一齐数学竞赛AIME的题目:

翻译过来是这么的,测试中咱们亦然用的这段汉文翻译版块:

o1-mini的解法是一种闲居想路,临了完毕也对了,而QwQ这边上来先是一大通的罗列,然后试图从中寻找规矩。

当发现没找到规矩时,还会进行更多的罗列,然而临了找出的规矩并不正确,完毕天然也就错了(不外方朝上如实和5的模研讨)。

从以上的案例当中不错看到,若是单看正确率,QwQ的施展如实不错和o1-mini同台较量。

但从历程中看,QwQ想一步到位还存在一定难度,还要履历列举、试错等步调,以至巧合会堕入死轮回。

这导致了其完毕对于东谈主类的的易读性和o1-mini还存在差距,QwQ需要在这少许上再多校正。

好在QwQ是个开源模子,若是是按token计费的商用模子,这么的输出长度惟恐也会让东谈主横目而视。

天然对于这么的问题,千问团队自己也止境安心,暗示处于测试阶段的QwQ,如实存在冗长而不够聚焦的景象,将会在未来作念出校正。

One More Thing

除了这些庄重题目,咱们也试了试陷坑问题,看下QwQ能不成看出其中的裂缝。

问题是这么的,介怀是不需要:

缺憾的是,QwQ并莫得发现这个要道点,何况作为念一齐闲居的农夫过河问题进行了复兴。

不外这也算是大模子的一个通病了,OpenAI的o1在这么的笔墨游戏眼前照样违背不住。

本色上这个问题最早被和顺是在几个月之前了,那时还莫得o1这么的推理模子,大模子真是在这个问题上拔本塞源。

当今看来,推理才气增强后,也一经没改掉不追究读题的差错啊(手动狗头)。

参考贯穿:

https://qwenlm.github.io/blog/qwq-32b-preview/体验地址(Hugging Face):

https://huggingface.co/spaces/Qwen/QwQ-32B-preview体验地址(魔搭社区):

https://modelscope.cn/studios/Qwen/QwQ-32B-preview

— 完 —

量子位 QbitAI · 头条号签约

和顺咱们,第一时辰获知前沿科技动态






Powered by 数字视野网 @2013-2022 RSS地图 HTML地图