天天速讯:GPT-4学会反思,写代码能力提升21%,和人类的思考方式一样
利用二元奖励机制实现反思
GPT-4再度进化!
【资料图】
加上一个简单方法,就能让GPT-4这类大语言模型学会自我反思,性能直接提升30%。
在此之前,大语言模型回答出错,经常是二话不说,直接先道歉,然后emmmmmm,继续乱猜。
现在,它不会这样了,有了新方法的加成,GPT-4不仅会反思自己哪里错了,还会给出改进策略。
比如说它会自动分析为什么“陷入循环”:
或者说反思一下自己有缺陷的搜索策略:
这是美国东北大学联合MIT发表的最新论文中的方法:Reflexion。
不仅适用于GPT-4,也适用于其他大语言模型,让它们学会人类特有的反思能力。
目前该论文已经发表在预印平台arxiv上。
这把直接让网友直呼“AI进化的速度已经超过我们适应的能力了,我们要被毁灭了。”
甚至有网友为开发人员发来“饭碗警告”:
用这种方法写代码的时薪是要比普通开发人员便宜的。
正如网友所言,Reflexion赋予GPT-4的反思能力和人类的思考过程差不多:
可以简单用两个字来概括:反馈。
在这个反馈过程中,又可以分为三大步:
1、评估:测试当前生成答案的准确性
2、自我反省的产生:错误识别——实现修正
3、执行一个迭代反馈循环
在第一步评估的过程中,首先要经历的是LLM(大语言模型)的自我评估。
也就是说LLM在还没有外部反馈时,首先要自己对答案进行反思。
那如何进行自我反思?
研究团队使用了一个二元奖励机制,为LLM在当前状态下执行的操作赋值:
1代表生成的结果OK,0则表示生成的结果不太行。
而之所以采用二元而非多值或连续输出这类更具描述性的奖励机制,原因和没有外部输入有关。
要在没有外部反馈的条件下进行自我反思,必须将答案限制在二元状态下,只有这样,才能迫使LLM做出有意义的推断。
在自我评估结束之后,如果二元奖励机制输出为1,则不启动自我反思装置,若为0,LLM则会开启反思模式。
在反思的过程中,模型会触发一个启发性函数h(如下),类比人类思考过程,h起到的作用就像是监督一样。
不过,同人类思考一样,LLM在反思的过程中同样也有局限性,这在函数中的Ω和ε中就能体现。
Ω表示重复连续动作的次数,一般会将这个数值设置为3,这表示反思过程中若重复一个步骤三次,会直接跳到下一个步骤。
而ε则表示在反思的过程中允许执行的最大操作数量。
既然有监督,那修正也必须执行,修正过程的函数是这样子的:
其中,自我反思模型是通过“特定领域的失败轨迹和理想反射对”训练而来的,并不允许访问数据集中给定问题的特定领域的解决方案。
这样一来,LLM在反思的过程中便能够迸发出更多有“创新性”的东西。
既然GPT-4这类LLM都能够进行自我反思了,那具体效果究竟如何?
研究团队在ALFWorld和HotpotQA基准上对这种方法进行了评估。
在HotpotQA的100个问答对测试中,使用Reflexion这种方法的LLM显示出了巨大的优势,再经过多轮反思重复提问之后,LLM的性能提升了接近30%。
而没有使用Reflexion,在重复问答之后,性能没有任何变化。
在HotpotQA的134个问答对测试中,可以看出在Reflexion的加持下,LLM经过多轮反思后,准确率一度达到97%。
在另外一篇博客中,团队成员也晒出了他们这种方法在GPT-4上的效果,测试范围是编写代码。
结果也显而易见,用了Reflexion,GPT-4的编程能力直接提升了21%。
关于GPT-4已经会“思考”了,你怎(huang)么(le)看(ma)?
论文地址:https://arxiv.org/abs/2303.11366
参考链接:[1]https://nanothoughts.substack.com/p/reflecting-on-reflexion
[2]https://www.reddit.com/r/MachineLearning/comments/1215dbl/r_reflexion_an_autonomous_agent_with_dynamic/
关键词:
利用二元奖励机制实现反思
来源:人民日报海外版中国南极中山站部分设施。新华社发中国第39次南极科考队在中山站附近的仙女峰完成了3米口径低频射电望远镜的安装和调试。
爬树看演唱会致手臂骨折:省1千花1万今天的热度非常高,现在也是在热搜榜上了,那么具体的爬树看演唱会致手臂骨折:省1千花1
采访、撰文|灯灯站在50岁的当口回头望,李小萌觉得,她的人生上半场大致可以划为两个阶段。2015年以前,她是家喻户晓
我们联合合作伙伴:全国汽车交易与金融大数据服务平台车300,选取10款优惠车型其中一个版本的一年保值率整理出来,并在数据库中抓取近两周内各
康弘药业3月26日公告,公司控股股东、实际控制人柯潇计划自2022年12月26日起6个月内,以集中竞价方式或协议大宗交易
虎扑03月26日讯今天NBA常规赛鹈鹕客场对阵快船的比赛已经结束。全场战罢,鹈鹕以131-110战胜快船。赛后美国媒体
数字电视能连接上wifi,通过说明书确认该数字电视支持无线网络连接。并确认宽带信号、无线路由器正常可用。设定方法如下:1、首先打开电视机,
2022年12月A股生态保护和环境治理业上市公司数量有74家,纳入计算的公司62家,其总市值为3392亿元;2022年12月A股生态保护和环境治理业其行业
中国短道速滑队正在全力备战米兰冬奥会的比赛,中国短道速滑队想要在米兰冬奥会上获得冠军,那么必须要拿出更好的表现。为了能够在米兰冬奥会
1、全攻全守简单的说,全攻全守的定义就是:即球队除守门员之外的10名队员全部都在执行进攻和防守的职责。2、全攻全守,某种
1、黄晓明身高:179cm。2、黄晓明,1977年11月13日生于山东省青岛市市南区,中国内地男演员、歌手、商人,毕业于北京电影学院表演系。1998年主
1、柬埔寨首相(1948~1949,1967~1969)。2、出生于金边,1985年5月18日卒于巴黎。3、曾任财政大臣
欢迎观看本篇文章,小勉来为大家解答以上问题。二尺五的腰围是多少厘米,二尺五的腰围是几厘米很多人还不知道,现在让我们一起来
青年因城市而聚,城市因青年而兴。2023年,青春的郑州、活力的郑州要怎样彰显无限魅力?全市共青团工作如何开展?3月25日,共青团郑州市十六
郑栾高速全程是从郑州至栾川,是河南省高速公路网规划中的6条省会放射线之一。是连接河南省郑州至河南省洛阳市栾川县的一条高速公路。郑栾高速
三次飞行任务标识这是中国载人航天工程史上首次面向全社会公开征集任务标识640其中,神舟十七号载人飞行任务标识由四川美术学
有房产证的回迁房才可以贷款。回迁房就是发展商征收土地时,赔给回迁户的房子。每个楼盘基本都有回迁房,一般回迁房的售价都普遍
快手推广的时候,很多商家经常会使用快手粉条以及快手磁力金牛,那么快手粉条是什么?快手磁力金牛是什么?下面给大家讲述一下。
这世界爱心是很重要的,贫困地区很多小孩子连衣服都穿不上,这就需要我们捐赠我们的衣服去帮助他们,今天小编在这给大家整理了一些捐赠衣物活
在动漫《火影忍者》中,卡卡西杀死琳的剧情是出自565集和566集。被囚禁的带土时刻想着自己的同伴,他没有时间在这里与白绝们开无聊的玩笑,想
3月24日,百联股份(600827)融资买入605 0万元,融资偿还380 07万元,融资净买入224 94万元,融资余额6 58亿元,近20个交易日中有12个交易日
1、衢州的好,现在是本科,不过因为刚刚升的2本,现在还保留一部分专科,过几年会全招本的。2、毕竟升本还是要有点实力的。本
1、电话、电脑、空调、电风扇、排气扇、饮水机、传真机;2、打印机、复印机、扫描仪、碎纸机、各种复印和打印纸;3、小冰箱、一次性杯子、烟灰
产品名称:博普万维指数增强2号1期私募证券投资基金发行机构:博普资产发行时间:2023-03-24至2023-03-31发行规模:至万元锁定期限:12月预计收
Copyright 2015-2022 亚洲酒业网 版权所有 备案号:豫ICP备20022870号-9 联系邮箱:553 138 779@qq.com