阿里云通义开源全新数学推理过程奖励模型Qwen2.5-Math-PRM
来源:今日头条 发表于2025-02-21 06:32:52 编辑:张易川
摘要: 1月17日消息,通义千问Qwen宣布开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,包括72B和7B两个版本,将提升大型语言模型(LLMs)在数学推理过程中的可靠性和

  1月17日消息,通义千问Qwen宣布开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,包括72B和7B两个版本,将提升大型语言模型(LLMs)在数学推理过程中的可靠性和可信度,自动识别推理过程中的错误,如计算或逻辑错误,这些错误可能导致不正确的结论,即使最终答案正确,也可能削弱模型推理过程的可信度。

  在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时,团队还开源了首个步骤级的评估标准ProcessBench,此项评估标准填补了大模型推理过程错误评估的空白。

  据了解,为更好衡量模型识别数学推理中错误步骤的能力,通义团队提出的全新评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。

投稿邮箱:qingjuedu@163.com
相关推荐
100亿!《哪吒2》背后是一个“新系统”的胜利
100亿!《哪吒2》背后是一个“新系统”的胜利

原标题:100亿!《哪吒2》背后是一个新系统的胜利 100亿! 《哪吒2》到底做对

快资讯2025-02-14 19:13:38

真奇葩!收700多元作业打印费,山西太原一中学冲上热
真奇葩!收700多元作业打印费,山西太原一中学冲上热

原标题:真奇葩!收700多元作业打印费,山西太原一中学冲上热搜 在信息传播

快资讯2025-02-14 18:50:48

教师唐某某,双开,已采取刑事强制措施!
教师唐某某,双开,已采取刑事强制措施!

原标题:教师唐某某,双开,已采取刑事强制措施! 据百色融媒微信公众号消

快资讯2025-02-13 19:19:06

《哪吒2》火到国外,激活一个高校专业,动画专业择校
《哪吒2》火到国外,激活一个高校专业,动画专业择校

原标题:《哪吒2》火到国外,激活一个高校专业,动画专业择校策略 近年来,

快资讯2025-02-12 20:30:03

比起 AI,教师的“超能力”才是真正的硬通货!
比起 AI,教师的“超能力”才是真正的硬通货!

原标题:比起 AI,教师的超能力才是真正的硬通货! 人工智能来了,教师要下

快资讯2025-02-11 18:57:43

Deepseek 好用吗?深圳师生感叹:很好很强大!
Deepseek 好用吗?深圳师生感叹:很好很强大!

原标题:Deepseek 好用吗?深圳师生感叹:很好很强大! 近段时间以来,深圳不

快资讯2025-02-10 18:46:49

丘成桐任院长!知名大学,成立新学院!
丘成桐任院长!知名大学,成立新学院!

原标题:丘成桐任院长!知名大学,成立新学院! 2月6日,香港中文大学宣布正

快资讯2025-02-08 10:16:38

惊爆!上海某国际高中疑遭全美高校拉黑!
惊爆!上海某国际高中疑遭全美高校拉黑!

原标题:惊爆!上海某国际高中疑遭全美高校拉黑! 学术造假风波,一波未平

快资讯2025-02-07 20:00:58

成都6名学生收到剑桥offer,大部分是理工学科
成都6名学生收到剑桥offer,大部分是理工学科

原标题:成都6名学生收到剑桥offer,大部分是理工学科 1月30日,剑桥大学放榜

快资讯2025-02-06 19:29:07

全国首家!985大学,成立新学院!
全国首家!985大学,成立新学院!

原标题:全国首家!985大学,成立新学院! 1月22日 ,西安交通大学技术经理人

快资讯2025-01-24 19:17:19