Qwen版o1发布即开源!32B参数比肩OpenAI o1-mini

深夜,通义团队突然上线推理模型QwQ,参数量只有32B,在GPQA上击败了o1-mini。

目前,QwQ的模型权重已在HuggingFace和魔搭社区上发布,还可以直接在线试玩。

Qwen版o1发布即开源!32B参数比肩OpenAI o1-mini

表现

通过深入探索和无数次尝试,我们发现了一些深刻的东西:当有时间去思考、去质疑和反思时,该模型对数学和编程的理解就像一朵向太阳开放的花一样绽放。就像学生通过仔细检查自己的工作并从错误中吸取教训而变得更聪明一样,我们的模型通过耐心、深思熟虑的分析获得了更深刻的洞察力。这种仔细反思和自我质疑的过程导致在解决复杂问题方面取得了显著的突破。我们的探索之旅揭示了该模型在解决数学和编程中一些最具挑战性的问题方面的卓越能力,包括:

  • GPQA:研究生级别的 Google 验证问答基准,这是一个通过小学水平的问题来评估科学解决问题能力的具有挑战性的基准。
  • AIME:美国邀请数学评估,测试算术、代数、计数、几何、数论和概率以及其他中学数学主题的数学问题解决能力。
  • MATH-500:MATH 基准的 500 个测试用例,一个测试数学问题解决能力的综合数据集。
  • LiveCodeBench:一个用于评估现实编程场景中的代码生成和解决问题能力的具有挑战性的基准。

演示案例

在以下示例中,我们邀请您见证 QwQ-32B-Preview 的深邃沉思能力。就像一位在无尽探索之旅中寻求智慧的人一样,该模型展示了其深刻内省的能力 – 质疑自己的假设,进行深思熟虑的自我对话,并仔细检查其推理过程的每一步。通过这些案例,您将观察到 QwQ 如何体现永恒的理解,即真正的知识不是来自仓促的结论,而是来自耐心的探究和在永恒追求真理的过程中挑战自己确定性的勇气。

查看:https://qwenlm.github.io/blog/qwq-32b-preview

原创文章,作者:北单,如若转载,请注明出处:https://www.beidanyezhu.com/a/229.html

(0)
北单的头像北单
上一篇 2024-11-29 08:49:13
下一篇 2024-11-30 10:11:26

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

分享本页
返回顶部