Step Reasoner mini:阶跃星辰的 AI 推理新星

一、模型发布

阶跃星辰于 2025 年 1 月 16 日重磅推出其自主研发的推理模型 Step Reasoner mini(简称 Step R - mini)。此模型作为 Step 系列模型家族的先锋,具备独一无二且出类拔萃的能力。

二、模型能力

  1. 擅长逻辑处理与规划反思

    • 此模型善于主动规划、尝试以及反思。不论是应对数学问题、逻辑推理难题,还是进行文学创作任务,都会依据任务需求率先制定规划。当存在多种解题途径或创作方案时,它会积极尝试不同选择。在这一过程中,通过模拟人类的慢思考过程,并借助反复验证的机制,对每一步骤或结果进行多次校验,例如反复检查答案或者优化创作内容等,从而为用户呈上精准可靠的回复。

  2. 文理兼修能力突出

    • 理科能力:在数学和代码领域表现卓越。于 AIME(美国数学邀请赛)和 Math 等数学基准测试中,成绩超越了 o1 - preview,与 OpenAI 的 o1 - mini 旗鼓相当,足见其解决复杂数学问题的强大能力。在 LiveCodeBench 代码任务方面,同样优于 o1 - preview,这表明它在代码编写、解决代码逻辑或者算法任务时的出色表现。在实际应用场景中,诸如处理 LeetCode 技术平台上难度评级为 Hard 的算法题能够正确解答,并且能够应对复杂开发需求,通过逐步剖析用户需求和意图,构建正确的代码逻辑等 。

    • 文科能力:在文学创作等通用领域亦有上佳表现。它能够承接文学创作任务,深度领会用户的表达需求,从创作主题、文学体裁等方面展开全方位的思考。比如在创作过程中斟酌创作角度、描绘的景物、修辞手法、内容结构,赋予事物人类情感层面的象征意义,并增添个性化的、创新的表达风格,展现出在文科领域的创作能力与理解能力。同时在日常聊天任务中,也能出色地理解用户意思并给予合理反馈,将文理能力完美融合 。

三、模型特点

  1. 独特的逻辑机制与优秀的测试表现

    • 基于慢思考和反复验证的逻辑机制:Step Reasoner mini 的显著特色之一便是擅长主动规划、尝试和反思。在处理各类任务时,例如数学题或者逻辑推理题,它采用类似于人类的慢思考模式。比如在解答逻辑推理任务时,会自主进行多种解题思路的尝试,这是主动规划和尝试多种可能性的体现。在得出初步答案后,会自我反问是否存在其他可能性,确保枚举出所有效果良好的解决方案并检查有无遗漏,这就是反复验证的过程。这种机制能够让模型在复杂任务中提供更准确、全面的答案 。

    • 在基准测试中成绩优异:在众多基准测试里彰显出强大实力。在 AIME 和 Math 等数学基准测试上,成绩超过了 o1 - preview 并且达到了与 OpenAI 的 o1 - mini 并驾齐驱的水准。在 LiveCodeBench 代码任务方面的效果也胜过 o1 - preview。例如,在实际解答数学问题的场景中,当遭遇奥数难题时,能够像专业数学家一样构建合理的推理链,实现从复杂数学问题的规划到逐步求解的过程,并且会枚举不同的解法方案交叉验证;在处理几何题目时,甚至能主动通过画草图这种方式构建深度思考的内容介质,显示出其逻辑解释性和深度思考能力 。

  2. 文理均衡发展的能力架构

    • 大规模强化学习训练与文理兼修的能力:通过大规模的强化学习训练,并运用同策略强化学习算法 On - Policy 达成了文理兼修的独特成效。在众多推理模型中,随着训练参数规模增加,往往会出现文科能力提升则理工科能力下滑这种不平衡的现象,但 Step Reasoner mini 成功克服了这一难题。其既能精确解答数学、代码、逻辑推理等理工科性质的问题,又能富有创意地完成文学内容创作、日常聊天等文科类的任务。比如创作类任务时,能够深入理解用户对于创作主题、文学题材的要求后,进行深度创作思考,元素涉及创作角度、描绘的景物、修辞手法、内容结构等多个文学创作要素的思考,还能赋予事物情感象征意义、个性化表达及创新风格等 。

四、模型应用场景

  1. 学术与专业领域

    • 数学与逻辑推理问题求解:

      • 在学术学习方面,学生或者研究人员在面对数学难题时,例如数学竞赛中的复杂题目,像 AIME(美国数学邀请赛)中的题目类型等,Step Reasoner mini 能够构建合理的推理链进行求解。在处理逻辑推理问题时,无论涉及的是逻辑关系复杂的数学逻辑题,还是需要推理人物关系、事件先后顺序等普通逻辑推理类型的题目,它都能运用其擅长主动探索多种解题思路的能力,对问题进行仔细分析,得出较为准确的结论。例如,对于一些需要高逻辑性的学科作业或者研究课题的逻辑部分,它可以辅助快速提供解决方案 。

      • 在专业领域 ,如代码开发方面,开发者遇到 LeetCode 技术平台上难度评级为 Hard 的算法题或者需要处理复杂开发需求时,它能够逐步分析用户需求和意图,构建正确的代码逻辑,像是在复杂的算法设计、软件架构逻辑分析等场景下提供有价值的参考建议或者直接给出可行的代码解决方案。这对于编写高效、复杂的代码功能逻辑模块十分有用。

  2. 文学创作与日常交流互动

    • 文学创作的辅助与创意生成:

      • 在文学创作方面,对于需要创作不同文学题材的写作者,无论是诗歌、散文、故事创作等,它都能够深入理解创作者对于主题、文学题材的要求。例如根据用户要求创作一首抒情诗,模型可以思考创作角度,如从个人情感的细腻之处入手,描绘景物来烘托情感,再选择合适的修辞手法像比喻、拟人等来丰富诗歌内涵,构建合理的内容结构,并且能够赋予事物人类情感层面的象征意义,比如将月亮象征团圆等情感意义。还可以增加个性化的、创新的表达风格,让文学作品在传统优秀创作模式基础上加入新鲜元素,促进文学创作活动。

      • 在日常聊天对话场景中,它能够很好地理解用户的提问、陈述内容并给予合适回复。无论是进行日常文化知识交流、分享观点等场景下,都能像与朋友聊天一般自然地互动并提供有趣有深度的回应。可以与用户共同探讨一部小说的情节解读,电影的艺术表现形式等,提供丰富的想法和观点交流。

五、模型比较

  1. 综合能力对比

    • 性能超越部分模型:在数学基准测试(AIME 和 Math)上,Step Reasoner mini 的成绩已然超越了 o1 - preview。在代码任务测试(LiveCodeBench)上,同样比 o1 - preview 效果更优。这清晰地展现出在数学与代码的处理能力方面,相较于 o1 - preview 有着显著的优势 。

    • 与优秀模型表现持平:与 OpenAI 的 o1 - mini 相较,在 AIME 和 Math 等数学基准测试中成绩相当,说明在处理数学问题的能力方面已经达到了和 o1 - mini 类似的水平,在智慧、逻辑推理能力的某些衡量标准下,具备和 o1 - mini 竞争的实力。

  2. 文理能力均衡性对比

    • 在文理兼修方面的优越性:大多数推理模型,随着训练参数规模增加时很难兼顾文理科两个方向的能力。它们往往在文科能力提升的时候,会损失理工科能力的确定性。而 Step Reasoner mini 通过特定的大规模强化学习训练和 On - Policy(同策略)强化学习算法成功实现了文理兼修。例如,既能够解答逻辑推理、代码、数学等理工科领域的专业问题,同时又可以充满创意地完成文学创作、日常交流聊天等文科性质的任务,这在文理能力平衡方面较其他多数模型具有很大优势,适用性更广,不会出现只是文科或只是理科能力突出而在其他方面短板明显的情况。

六、使用方法

  1. 访问平台及初步操作

    • 平台入口:据当前消息,Step Reasoner mini 已在跃问网页端全量开放,用户可通过此网页端进行访问 。不过目前尚未有更多关于是否有手机端应用等其他访问方式的消息披露。

    • 基本交互方式:访问网页端平台后进入交互界面。如同其他语言模型交互场景,用户可以以文字形式输入自己的问题或者需求。例如用户想要它解决一道数学难题或者创作一首诗歌,只要清晰地以文字表达出具体需求内容即可,模型就会依据所输入的内容进行处理。

  2. 根据任务类型的输入要点

    • 解答专业问题时的输入:

      • 在需要解答数学或者逻辑推理等专业问题时,为了模型能够准确提供有效解答,最好尽可能将题目或问题陈述清楚。比如对于数学题,不仅要输入题意内容,还需要明确已知条件、所求结果等内容信息。例如在输入一个几何题时,要准确表述图形的形状特征、已知边长或者角度等详细信息;对于逻辑推理题要把人物关系、事件先后顺序等已知逻辑元素完整表达。

      • 在代码开发需求方面,如果需要要求模型构建一段代码,要说明需求的功能,例如是实现对文件的排序功能、网络数据交互功能等,还有输入输出要求等编程元件相关的基本信息。

    • 获取文学创作与日常聊天时的输入:

      • 在文学创作请求时,需要明确创作的主题方向、文学体裁要求。例如,如果希望得到一篇关于爱情的散文,就要输入明确的 “爱情” 主题和 “散文” 这种体裁。若想让创作内容有更多的特殊要求,如特定的情感氛围、修辞手法、结构形式等,也可以尽可能详细地在输入内容中表述出来。

      • 在日常聊天场景下,自然地输入想要交流的内容就可以,例如表达观点、分享日常经历或者提出感兴趣的话题等,模型就会根据输入的聊天内容进行相应的回应。

© 版权声明
小绿鲸

相关文章