现在小学数学题有多难小学生拍照上传到话题App找不到现成答案如果稍微改动题目的句子,就要购买会员手工答题
一时间,小学生成了氪金玩家。
即使换话题不换药,讲话题App也还是只是一份工作。如果有一个能听懂白话的写作软件该多好啊!
最近,OpenAI训练了一个解决小学数学问题的新系统,说它改进了GPT—3的逻辑推理问题。
日前,OpenAI发布了GPT—3语言模型,GPT—3成为OpenAI的旗舰语言生成算法,参数规模达到1750亿,在文本生成方面堪比人类文字。
三个月后,OpenAI针对数学问题引入了GPT—f,利用基于Transformer语言模型的生成能力自动证明定理。
到目前为止,GPT—3的能力基础被戏称为努力创造奇迹你能通过解决几个小学水平的数学问题来克服对OpenAI的质疑吗
这涉及到一个很大的困难GPT—3真的懂逻辑吗即使数学语言和白话不一样,但还是涉及到很多逻辑关系,一步一步错
因此,OpenAI基于四个设计原则,即数据集高质量,高多样性,中等难度和自然语言,为GPT—3的重复训练创建了GSM8K数据集。
GSM8K数据集由8.5K道优质小学数学应用题组成,每道题需要2到8步才能解决,涉及加减乘除的综合运算,已近9—12岁。
发现60亿参数的GPT—3采用了新方法,准确率直接翻倍!甚至将GPT—3模型与1750亿个参数和微调方法捆绑在一起。
新方法挑战了比自身高30倍的大参数模型证明了参数越大越好这个新方法是什么
1训练验证器:从错误中学习。
像GPT—3这样的大型语言模型有很多惊人的技巧,包括模仿各种写作风格,自动编程,自然对话,语义搜索等等可是,他们很难完成需要精确多步推理的任务,比如解决小学数学应用问题
小明每半小时喝一瓶水一个普通的数独难题要花他45分钟一个极其困难的数独需要四倍的时间在一段非常艰难的数独时间里,他喝了多少瓶水
在这样的数学题中,GPT—3是否是匹配人类在复杂逻辑领域的表现,盲目提高参数的长久之计。
不要OpenAI中提到的新方法,为什么不让模型学会识别自己的错误呢
为此,OpenAI训练了一个验证器来评估提出的解决方案是否正确与更新模型参数和最小化所有训练令牌的交叉熵损失的方法相比,它需要多一个思考
增加一个验证模块,通过反复试错,学习,重算,并微调GPT—3此前无法解决的逻辑推理能力,在新方法上取得进展。
对于这两种思路,OpenAI通过新的GSM8K数据集对两种方法:进行了测试。
高品质:GSM8K中的问题都是手工设计的,避免了错误问题的发生。
高分集:GSM8K中的问题被设计得相对独特,避免了来自相同语言模板或仅在表面细节上不同的问题。
中等难度的:GSM8K中的问题分布是对大SOTA语言模型的挑战,但也不是完全难以解决这些问题不需要超出早期代数水平的概念,大部分都可以在没有明确定义变量的情况下解决
:GSM8K中的自然语言解是用自然语言写的,而不是纯数学表达式模型生成的解决方案也更容易理解除此之外,OpenAI也期望它能够阐明大语言模型中独白的特点
GSM8K中三个问题的例子,红色是计算的注释。
在GSM8K数据集上,OpenAI测试了新方法验证和基线方法微调产生的答案。
即:6B精调,6B校验,175B精调,175B verifi四种不同的解决方案
在性能演示中,OpenAI提供了十个数学题示例,其中一个就是下面的解法:
小明种了五棵树他每年从每棵树上收集六个柠檬他十年能得到多少柠檬
175B已正确验证。
175B微调误差。。
6B已正确验证。
6B微调正确。
显然,在回答数学应用问题时,验证方法要比微调的基线方法好得多。
在完整的训练集中,采用验证方法的60亿参数模型略好于采用微调的1750亿参数模型!
可是,大型模型并非没有优点带验证的1750亿参数模型仍然比带验证方法的60亿参数模型快,可以用更少的训练题超过微调基线
OpenAI发现,只要数据集足够大,大型模型就能从验证中获得强大的性能提升。与4G相比,5G小蜂窝将是一个非常大的市场,因为对于5G来说,与其他实现方式相比,它主要是一个互补的市场,例如宏蜂窝或大规模MIMO,用于覆盖室内,室外和现场部署。
可是,对于过小的数据集,验证者会通过记忆训练集中的答案进行过度拟合,而不是学习基础数学推理更有用的属性。
因此,根据目前的结果。
行推断,「验证」似乎可以更有效地扩展到额外的数据。
大模型毕竟有大模型的优势,如果之后能够用大模型 + 验证的方式,将会使得模型性能再上一个 level !
2 新方法是如何验证的。
验证器训练时,只训练解决方案是否达到正确的最终答案,将其标记为正确或不正确但是在实践中,一些解决方案会使用有缺陷的推理得出正确的最终答案,从而导致误报
现在的验证器具体训练方法分为三步走:
先把模型的「生成器」在训练集上进行 2 个 epoch 的微调。
从生成器中为每个训练问题抽取 100 个解答,并将每个解答标记为正确或不正确。
在数据集上,验证器再训练单个 epoch。
生成器只训练 2 个 epoch 是因为 2 个 epoch 的训练就足够学习这个领域的基本技能了如果采用更长时间的训练,生成的解决方案会过度拟合
测试时,解决一个新问题,首先要生成 100 个候选解决方案,然后由验证器打分,排名最高的解决方案会被最后选中。
训练验证器既可以在全部的生成解决方案里进行单个标量预测,也可以在解决方案的每个 token 后进行单个标量预测,OpenAI 选择后者,即训练验证器在每个 token 之后进行预测。
如下图所示,它们分别标记为解决方案级别和token 级别。
在 b 图中,通过消融实验验证训练验证器中使用目标的作用,OpenAI 将使用两个目标与仅使用验证目标进行比较。
在 c 图中,OpenAI 对生成器和验证器的大小进行了实验,研究发现使用大的生成器,小的验证器组合性能显著优于小的生成器,大的验证器组合。
3 写在最后
通过 OpenAI 所展现出的 10 个数学实例是看出,使用验证方法比单纯扩大参数要更加智能,但缺点是并不稳定比如在另一个问题实例中,仅有 175B 验证模型输出正确结果:小明是一所私立学校的院长,他有一个班小红是一所公立学校的院长,他有两个班,每个班的人数是小明班级人数 120 人的 1/8问两所学校的总人数是多少
AI 发展道阻且长,目前绝大多数的机器学习仍依赖于数据堆砌,缺乏根本性的技术突破,存在一定的发展瓶颈Google 工程总监 Ray Kurzweil 曾表示,直到 2029 年,人类才有超过 50% 的概率打造出 AGI 系统,还有一部分专家表示至少要到 2099 年或 2200 年
现下,通过在一些简单的领域试验新路径,识别和避免机器学习的错误是推动模型发展的关键方法,比如这种简单的小学数学题最终当我们试图将模型应用到逻辑上更复杂的领域时,那些不被了解的黑箱子将变得越来越透明
。[责任编辑:余梓阳]
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。