当前位置:首页>新闻 > >正文

一份来自Huggingface的大模型进化指南:没有必要完全复现GPT-4

  • 2023-07-04 14:04:45来源:大数据文摘

大数据文摘出品


(相关资料图)

ChatGPT爆火之后,AI界进行了一场“百模大战”。近日,Huggingface的机器学习科学家Nathan Lambert,在一篇博文中对当前入局大模型的力量,从开源视角进行了梳理,并提出了很多深刻的见解。

What this looks like is instead of taking the giant scorecard that GPT4 was touted on, you take 10-50% as the targets for an open-source model and beat GPT4。

开源的模型不要试图在所有方面都超越GPT4,而只专注于在部分领域(占总指标的10-50%)取得优势。

至于原因,他提到语言模型在推理能力、预测能力、控制程度等方面具有很大的多样性,仅仅“瞄准”复现ChatGPT可能只是一种氛围目标,并不必要。

此外,他还提到OpenAI的成功有运气成分,这可能是开源社区无法实现的。

图片

以下是中文翻译,文摘菌做了不改变原意的修改。

ChatGPT没出来之前,大家一直以为语言模型只是学者们的研究项目,即易用性和成本扩展非常粗糙,表现为模型难以上手、难以部署。ChatGPT发布之后,突然,大家期望正在实验室“待着”的语言模型,都能和ChatGPT一样出色。实际上,这种期望并不现实,语言模型在推理能力、预测能力、控制程度等方面具有很大的多样性,而我们正处在初步探索阶段。因此,重现ChatGPT更像是一种“氛围”目标,并不必要。

接下来,开源社区可能针对特定需求开发具有更多特定功能的大型语言模型(LLM),但这些模型在总体能力上可能不如GPT4。开源的模型不会试图在所有方面都超越GPT4,而只专注于在部分领域(占总指标的10-50%)取得优势。在其他指标上,开源模型可能更落后,而非与GPT4持平。差异表现在以下几个方面:

不同的模型和数据起点:在ChatGPT成为热门话题时,GPT-3 还没有开源。如今,数据标准已经提高了很多,同时还有RLHF(从人类反馈中强化学习),一个已经证实存在的技术实现。

在基础模型的开发过程中,关键在于使用数据和基础设施创建较小的基础模型,然后微调参数,以便在某个小领域中提高性能。然后,进行最终大模型的训练。显然,目前的模型和基础设施正在引领一系列与几年前 OpenAI 不同的实验路径。

不同的数据集和评估:目前许多开源项目的进展取决于GPT4对模型的评估。然而,显然OpenAI在制定内部决策时,并没有根据其正在开发的语言模型的实际运行情况来进行评估,因此就有了不同的评估方法和风格。也得益于不同的数据集和评估方法,开源团队能够更快地收到关于他们模型的反馈,减少了模型完成到发布之间的等待时间。

不同的团队:据说OpenAI和Google的团队结构非常模块化,各个小团队负责模型的某个部分。这导致GPT模型的历史发展沿着一条非常狭窄的路径,每个团队不断迭代和优化他们负责的部分。相反,在开源领域,许多小团队在尝试和复制各种不同的想法,使得辨别“哪些方法是可靠且有效的,哪些方法只是侥幸成功”更加容易。说实话,OpenAI的成功有运气成分,这可能是开源社区无法实现的。

因此,在上述观点下,基础模型的稀缺可能会为开源社区创造更多的创新空间,而企业则可能会通过持续优化现有模型来取得稳定的进步。显然,LLaMA项目的发展路径中,已经验证了这一趋势。

图片

图注:大语言模型的演化树:同一分支上的模型具有较为紧密的关系。基于Transformer的模型以非灰色显示:蓝色分支中的仅解码器模型,粉色分支中的仅编码器模型,以及绿色分支中的编码器-解码器模型。模型在时间线上的垂直位置表示它们的发布日期。开源模型由实心正方形表示,而闭源模型由空心正方形表示。右下角的堆叠条形图显示了来自各个公司和机构的模型数量。

尽管我们希望重现ChatGPT这样的模型,但应该接受差距。即使在计算能力方面投入数千万美元的公司,实际获得的计算能力(如AWS GPU或TPU),其训练吞吐量也可能有2-4倍的差异。

OpenAI和Google已经解决了这些问题。因为它们在整个技术栈的每个环节进行优化时会产生极大的协同效应。也正是这种协同效应的存在,我们无法短时间内达到OpenAI和Google等大公司的技术水平。

在当前的大环境下,有几个不同类型的参与者将在接下来的几个月里影响大型语言模型发展方向的竞争。我们现在正处于一个资源丰富的时代,所以这些参与者如何看待成功,实际上取决于它们与行业内其他参与者之间的相对差距。在这些参与者之间最有趣的对比是:a) 它们如何训练模型,b) 它们如何使用这些模型,c) 谁在使用这些模型。

一、垂直领域的科技公司:也即大语言模型运动的先驱者,如OpenAI等,他们自己训练模型并使用这些成果。但除了文本输出之外,好像其他所有事情都“秘而不宣”。这是相对单调、缺乏创新的发展路径。

二、横向大科技公司:这些公司将模型用于内部服务,但推理过程可以在分布式环境中进行,例如用户在边缘设备中生成视频。这些公司希望开源模式得到广泛传播,并将流行系统的优化整合到他们的生态系统中。我预计,Meta公司会继续开放机器学习模型,但是由于他们在信息传播方面的限制,他们的迭代速度将不如完全开放的开源项目。

三、开源力量:许多人参与训练模型,而且更多的人在各种商业和非商业任务中使用这些模型。由于更新频率更高(发展速度快,有更多独立的团队参与其中),开源领域很可能会继续成为大语言模型发展的核心推动力。

四、学术界:在学术领域,研究人员可能会集中精力开发新方法,以便从较少的资源中获得更多成果或提高性能上限。

在最后三个群体(横向大型科技公司、开源领域和学术界)中,它们会在彼此之间分享和整合技术成果,这使得发展路径在初始阶段看起来相互交织。

当然,有些公司在这些分类之间存在交叉或模糊地带,这类公司往往同时展示出上述不同群体的特点。

在讨论诸如Vicuna和Koala等具有学术性且取得重大进步的项目之前,我们应该认识到这些成果更多地是由快速变化的环境带来的,而不仅仅是核心学术界的持续贡献。绝大多数学者将致力于展示最新的人类反馈或微调技术等方面的成果,而不是定期发布顶级模型。

文摘菌注:Vicuna和Koala都是基于LLaMA模型的开源大模型。

目前,我们正处于开放模型从指令微调(IFT)过渡到完全基于人类反馈的强化学习(RLHF)的阶段。显然,未来,并非所有成功应用RLHF的组织都能发布具有强大指令/聊天调优能力的模型。

说实话,在当前阶段,我对目前的学术界有些看不清。大语言模型作为产品阶段之前,人工智能研究的发展相对稳定。

有传言称,在ChatGPT问世之前,自然语言处理(NLP)研究已经逐渐式微,只剩下针对GPT-3的微调工作。目前对大语言模型的关注和研究热潮并不是全新的现象,这种狂热只是加速了自然语言处理(NLP)研究逐渐聚焦于大语言模型微调等领域的过程。

大语言模型成为研究热点之后,学术界与产业界的合作研究可能仍然延续之前的方式。然而,对于那些没有参与到这些特殊合作关系中的研究人员(他们实际上占据了大多数),可能会选择采用不同的研究方法。

换句话说,独立学术研究者的工作很可能在很大程度上预示了该领域发展的趋势。

尽管学术体系存在诸多缺陷,但它确实会定期产生洞见。现在,随着该领域在工业和开源竞争方面的增长,人们将开始探索如何开展除了微调OpenAI API之外的大语言模型研究。然而,新的研究激励措施(如大量用于LLM研究的AI安全资金)需要一定时间才能见效。

复现降低热潮

我一直在尝试寻找支持开源语言模型和研究的更多理由,而不仅仅停留在“我们一直都是这样做的”和“问责制”这两个方面,因为企业总是会很快对这两点妥协。

我很想进行的反事实分析是:发布ChatGPT和GPT-4以及完整的技术论文,是否能消解目前社会中普遍存在的炒作现象?当过程变得不透明时,企业和意见领袖更容易操控基于情感而非现实的传播趋势。

开放和复现目前已经成为越来越罕见的话题,我希望有更多的团队愿意公开分享大语言模型的进展,这样我们社会的交流就能更加实事求是。

via

https://www.interconnects.ai/p/llm-development-paths

标签:

延伸阅读

推荐阅读

一份来自Huggingface的大模型进化指南:没有必要完全复现GPT-4

大数据文摘出品ChatGPT爆火之后,AI界进行了一场“百模大战”。近日,H

为什么有些LOL玩家会嘲讽王者荣耀玩家?_为什么lol玩家讨厌王者荣耀|天天快报

英雄联盟在端游中的地位比较高,积累了大量玩家。后来腾讯就看到了moba

河南启动防汛应急响应!今天夜里多地仍有大暴雨+雷暴大风!

7月2日20时至3日6时郑州市出现阵雨雨量分布不均最大降水出现在新郑市的

【天天时快讯】爱心企业为汪清县3个街道捐赠爱心休闲椅

7月1日,一家爱心企业为汪清县大川街道、新民街道、长荣街道捐赠了300

天天快资讯:公安部:关停或禁言造谣传谣网络账号1万余个 依法查处造谣传谣网民

公安部今天通报,网络谣言打击整治专项行动开展以来,全国公安机关网安

环球头条:望都家园社区居委会治安志愿者工作站_对于望都家园社区居委会治安志愿者工作站简单介绍

1、望都家园社区居委会治安志愿者工作站是由康庄镇治安志愿者分会领导

当前观点:东方甄选推出APP 后续能否复制抖音上成功?

财联社7月4日讯(编辑胡家荣)东方甄选(01797 HK)在7月1日正式推出新版

世界观速讯丨手动挡车怎么开车步骤口诀(手动挡起步的口诀是什么)

想必现在有很多小伙伴对于手动挡起步的口诀是什么方面的知识都比较想要

【摄影】开镰收割忙 陇原迎丰收-全球速递

风吹麦浪,机声隆隆,随着全国小麦收获主战场向西转移,我省陇南、天水

公务员退休金和养老金的区别_退休金和养老金的区别_焦点播报

1、养老金是指未参加养老保险社会统筹的企事业单位在职工退休后一次性

红星发展(600367):该股换手率大于8%(07-04)_天天短讯

摘要:2023年07月04日红星发展(600367)换手率大于8%,主力资金净流入

外媒:中国通过限制芯片制造材料出口进行反击

集微网消息,据金融时报报道,随着中美两个超级大国之间的地缘政治针锋

宝可梦x网飞定格动画新作《宝可梦礼宾部》宣传片|焦点播报

宝可梦x网飞定格动画新作《宝可梦:礼宾部》宣传片,赶快一起来看看吧。

海口国际人才之家第三期外籍人才创业孵化班结业_报资讯

原标题:海口国际人才之家第三期外籍人才创业孵化班结业外籍人才椰城培

搜狐全球医讯 | 人造甜味剂有致癌风险?跟手机辐射一个级别

近期有知情人士透露,世卫组织的国际癌症研究机构(IARC)将把阿斯巴甜列

上海港务集团轮驳分公司

一、上海港务集团轮驳分公司下属子公司有钦州市港口建设投资有限责任公

环球速讯:广联航空(300900):7月3日北向资金增持2.66万股

7月3日北向资金增持2 66万股广联航空。近5个交易日中,获北向资金增持

7月3日基金净值:银华可转债债券最新净值1.4858,涨0.18%

7月3日,银华可转债债券最新单位净值为1 4858元,累计净值为1 4858元,

伽罗历史原型是什么(伽罗历史原型是谁)_天天微速讯

来为大家解答以上问题。伽罗历史原型是什么,伽罗历史原型是谁这个很多

世界热推荐:2022年北京冬奥会地点三个(2022年北京冬奥会地点)

大家好,小福来为大家解答以上的问题。2022年北京冬奥会地点三个,2022

空调上的这个神仙功能,很多人都忽视了!_时讯

这才7月初,高温就已经肆虐一轮了。北京、天津更是在气象观测史上首次

【全球热闻】宝马公司(关于宝马公司介绍)

大家好,小万来为大家解答以上的问题。宝马公司,关于宝马公司介绍这个

中超-费莱尼进球被吹武磊助攻李圣龙破门 泰山1-1海港

第10分钟,刘彬彬前场右边线附近突破被张琳芃放倒,泰山获得一粒任意球

焦点讯息:中油资本(000617)每日收评(07-03)

个股每日收评*{margin:0;padding:0;}body{font-family:

滕侍怎么读(滕侍)|前沿热点

1、氏族社会时期,国中有“媵制”,这是一种氏族首领才有资格实行的婚

大凌集团(00211.HK)完成出售香港西贡物业

格隆汇7月3日丨大凌集团(00211 HK)公布,有关拟3000港元出售香港西贡物

生益科技(600183):生益科技关于2019年度股票期权激励计划2023年第二季度自主行权结果暨股份变动 全球热议

股票简称:生益科技股票代码:600183公告编号:2023—043广东生益科技

全球速读:郑州启动水旱灾害防御Ⅳ级应急响应

郑报融媒把握正确舆论导向,关注百姓生活,侧重报道社会生活中的知识性

逆水寒手游自动寻路任务攻略详解

还有许多逆水寒玩家不知道逆水寒手游自动寻路任务攻略详解,接下来是第

全球热议:上半年表现不佳 下半年这三只美股会大放异彩吗?

亚汇网获悉,对于持有一小部分科技股的标普500指数的投资者来说,今年

猜您喜欢

Copyright ©  2015-2022 人人服装网版权所有  备案号:粤ICP备18023326号-36   联系邮箱:8557298@qq.com