您的当前位置:首页 > 热点 > 推理水平对标OpenAI o1!阿里云开源首个AI推理模型QwQ:数学、编程尤为出色 正文
时间:2024-12-27 12:25:52 来源:网络整理 编辑:热点
11月28日消息,今天,阿里云通义团队宣布推出并同步开源了全新的AI推理模型——QwQ-32B-Preview。评测显示,预览版本的QwQQwen with Questions
11月28日消息,推理推理今天,水平首个Q数色阿里云通义团队宣布推出并同步开源了全新的对标AI推理模型——QwQ-32B-Preview。
评测显示,开源预览版本的模型QwQ(Qwen with Questions)在科学推理能力上展现出研究生水平,尤其在数学和编程领域表现卓越,学编其整体推理能力可与OpenAI的程尤o1相媲美。
据介绍,为出QwQ是推理推理通义千问Qwen大模型最新推出的实验性研究模型,也是水平首个Q数色阿里云首个开源的AI推理模型。
阿里云通义千问团队研究发现,对标当模型有足够的开源时间思考、质疑和反思时,模型其对数学和编程的学编理解就会深化,基于此QwQ取得了解决复杂问题的程尤突破性进展。
在衡量科学问题解决能力的GPQA评测集中,QwQ达到了65.2%的准确率,显示出其研究生水平的科学推理能力;在AIME评测中,QwQ以50%的胜率证明了其解决数学问题的能力。
在MATH-500评测中,QwQ以90.6%的高分超越了o1-preview和o1-mini。在评估高难度代码生成的LiveCodeBench评测中,QwQ答对了一半的题目,在编程竞赛题场景中也有出色表现。
不仅如此,QwQ在面对复杂问题时,能够进行深度自省,质疑自身假设,并通过深思熟虑的自我对话,仔细审视其推理过程的每一步。
例如,在解决经典智力题“猜牌问题”时,QwQ通过梳理对话和推演,像个擅长思考的人一样,并最终得出正确答案。
目前,QwQ-32B-Preview已在魔搭社区和HuggingFace等平台上开源,发布短短几小时,引起全球开发者热情体验。
有开发者认为该模型“是完全没有预料到的疯狂的跃进”、“今年开源领域最重大的突破”、“让中国在开源大模型和AI推理上占据先机”。
不过通义团队也表示,虽然QwQ展现了强大的分析能力,但其仍是个供研究的实验型模型,存在不同语言的混合使用、偶有不恰当偏见、对专业领域问题不了解等局限,未来随着研究深入模型迭代,这些问题将逐步得到解决。
媒体人谈开放外援:和国际接轨是必由之路 但并非人数上简单放开2024-12-27 11:57
[流言板]肌肉快冲破训练服!杰伦Ins晒出为男士健康所拍摄的训练照2024-12-27 11:54
前主席之子:昨日是罗马队史最悲伤一页 穆帅带得很好&德罗西更好2024-12-27 11:46
[流言板]船记:最后时刻人群中有球迷朝着泰伦2024-12-27 11:36
[JR热议]有惊无险战胜对手,苏州KSG今天谁发挥的最好?2024-12-27 11:28
不执教了?索尔斯克亚:经济上我不再有需要,也没在等着带挪威队2024-12-27 11:04
小米16要首发!曝高通内测骁龙8 Elite 22024-12-27 11:01
[流言板]湖人上赛季前19场比赛12胜7负,本赛季是11胜8负2024-12-27 10:51
[流言板]字母哥连续得分追到19分,下场一分钟被骑士打出82024-12-27 10:31
欧冠揪出头号伪豪门:5场仅4分,输球又输人!遭拜仁4连杀2024-12-27 09:43
东体:国安与德索萨纠纷在出场次数,德索萨认定自己可拿全额工资2024-12-27 12:24
有没有人和我一样,既喜欢辽篮,又喜欢郭艾伦,我觉得两者不冲突2024-12-27 11:53
鲁本迪亚斯:对防线工作感到满意,我们有很大的进步空间2024-12-27 11:33
将战意大利以色列!官方:尤文20岁边锋姆班古拉首次入选比利时队2024-12-27 11:22
龙:在跟17谈合同细节2024-12-27 11:21
[流言板]美记:快船一直未能找到接手塔克的球队,塔克也未随队训练2024-12-27 11:09
将战意大利以色列!官方:尤文20岁边锋姆班古拉首次入选比利时队2024-12-27 11:03
将战意大利以色列!官方:尤文20岁边锋姆班古拉首次入选比利时队2024-12-27 10:10
[流言板]骑士本赛季净胜分11.1高居联盟第一,已有7场20+大胜2024-12-27 10:08
小米16要首发!曝高通内测骁龙8 Elite 22024-12-27 09:40