当前位置：首页>新闻 > >正文

一份来自Huggingface的大模型进化指南：没有必要完全复现GPT-4

2023-07-04 14:04:45来源：大数据文摘

大数据文摘出品

(相关资料图)

ChatGPT爆火之后，AI界进行了一场“百模大战”。近日，Huggingface的机器学习科学家Nathan Lambert，在一篇博文中对当前入局大模型的力量，从开源视角进行了梳理，并提出了很多深刻的见解。

What this looks like is instead of taking the giant scorecard that GPT4 was touted on, you take 10-50% as the targets for an open-source model and beat GPT4。

开源的模型不要试图在所有方面都超越GPT4，而只专注于在部分领域（占总指标的10-50%）取得优势。

至于原因，他提到语言模型在推理能力、预测能力、控制程度等方面具有很大的多样性，仅仅“瞄准”复现ChatGPT可能只是一种氛围目标，并不必要。

此外，他还提到OpenAI的成功有运气成分，这可能是开源社区无法实现的。

图片

以下是中文翻译，文摘菌做了不改变原意的修改。

ChatGPT没出来之前，大家一直以为语言模型只是学者们的研究项目，即易用性和成本扩展非常粗糙，表现为模型难以上手、难以部署。ChatGPT发布之后，突然，大家期望正在实验室“待着”的语言模型，都能和ChatGPT一样出色。实际上，这种期望并不现实，语言模型在推理能力、预测能力、控制程度等方面具有很大的多样性，而我们正处在初步探索阶段。因此，重现ChatGPT更像是一种“氛围”目标，并不必要。

接下来，开源社区可能针对特定需求开发具有更多特定功能的大型语言模型（LLM），但这些模型在总体能力上可能不如GPT4。开源的模型不会试图在所有方面都超越GPT4，而只专注于在部分领域（占总指标的10-50%）取得优势。在其他指标上，开源模型可能更落后，而非与GPT4持平。差异表现在以下几个方面：

不同的模型和数据起点：在ChatGPT成为热门话题时，GPT-3 还没有开源。如今，数据标准已经提高了很多，同时还有RLHF（从人类反馈中强化学习），一个已经证实存在的技术实现。

在基础模型的开发过程中，关键在于使用数据和基础设施创建较小的基础模型，然后微调参数，以便在某个小领域中提高性能。然后，进行最终大模型的训练。显然，目前的模型和基础设施正在引领一系列与几年前 OpenAI 不同的实验路径。

不同的数据集和评估：目前许多开源项目的进展取决于GPT4对模型的评估。然而，显然OpenAI在制定内部决策时，并没有根据其正在开发的语言模型的实际运行情况来进行评估，因此就有了不同的评估方法和风格。也得益于不同的数据集和评估方法，开源团队能够更快地收到关于他们模型的反馈，减少了模型完成到发布之间的等待时间。

不同的团队：据说OpenAI和Google的团队结构非常模块化，各个小团队负责模型的某个部分。这导致GPT模型的历史发展沿着一条非常狭窄的路径，每个团队不断迭代和优化他们负责的部分。相反，在开源领域，许多小团队在尝试和复制各种不同的想法，使得辨别“哪些方法是可靠且有效的，哪些方法只是侥幸成功”更加容易。说实话，OpenAI的成功有运气成分，这可能是开源社区无法实现的。

因此，在上述观点下，基础模型的稀缺可能会为开源社区创造更多的创新空间，而企业则可能会通过持续优化现有模型来取得稳定的进步。显然，LLaMA项目的发展路径中，已经验证了这一趋势。

图片

图注：大语言模型的演化树：同一分支上的模型具有较为紧密的关系。基于Transformer的模型以非灰色显示：蓝色分支中的仅解码器模型，粉色分支中的仅编码器模型，以及绿色分支中的编码器-解码器模型。模型在时间线上的垂直位置表示它们的发布日期。开源模型由实心正方形表示，而闭源模型由空心正方形表示。右下角的堆叠条形图显示了来自各个公司和机构的模型数量。

尽管我们希望重现ChatGPT这样的模型，但应该接受差距。即使在计算能力方面投入数千万美元的公司，实际获得的计算能力（如AWS GPU或TPU），其训练吞吐量也可能有2-4倍的差异。

OpenAI和Google已经解决了这些问题。因为它们在整个技术栈的每个环节进行优化时会产生极大的协同效应。也正是这种协同效应的存在，我们无法短时间内达到OpenAI和Google等大公司的技术水平。

在当前的大环境下，有几个不同类型的参与者将在接下来的几个月里影响大型语言模型发展方向的竞争。我们现在正处于一个资源丰富的时代，所以这些参与者如何看待成功，实际上取决于它们与行业内其他参与者之间的相对差距。在这些参与者之间最有趣的对比是：a) 它们如何训练模型，b) 它们如何使用这些模型，c) 谁在使用这些模型。

一、垂直领域的科技公司：也即大语言模型运动的先驱者，如OpenAI等，他们自己训练模型并使用这些成果。但除了文本输出之外，好像其他所有事情都“秘而不宣”。这是相对单调、缺乏创新的发展路径。

二、横向大科技公司：这些公司将模型用于内部服务，但推理过程可以在分布式环境中进行，例如用户在边缘设备中生成视频。这些公司希望开源模式得到广泛传播，并将流行系统的优化整合到他们的生态系统中。我预计，Meta公司会继续开放机器学习模型，但是由于他们在信息传播方面的限制，他们的迭代速度将不如完全开放的开源项目。

三、开源力量：许多人参与训练模型，而且更多的人在各种商业和非商业任务中使用这些模型。由于更新频率更高（发展速度快，有更多独立的团队参与其中），开源领域很可能会继续成为大语言模型发展的核心推动力。

四、学术界：在学术领域，研究人员可能会集中精力开发新方法，以便从较少的资源中获得更多成果或提高性能上限。

在最后三个群体（横向大型科技公司、开源领域和学术界）中，它们会在彼此之间分享和整合技术成果，这使得发展路径在初始阶段看起来相互交织。

当然，有些公司在这些分类之间存在交叉或模糊地带，这类公司往往同时展示出上述不同群体的特点。

在讨论诸如Vicuna和Koala等具有学术性且取得重大进步的项目之前，我们应该认识到这些成果更多地是由快速变化的环境带来的，而不仅仅是核心学术界的持续贡献。绝大多数学者将致力于展示最新的人类反馈或微调技术等方面的成果，而不是定期发布顶级模型。

文摘菌注：Vicuna和Koala都是基于LLaMA模型的开源大模型。

目前，我们正处于开放模型从指令微调（IFT）过渡到完全基于人类反馈的强化学习（RLHF）的阶段。显然，未来，并非所有成功应用RLHF的组织都能发布具有强大指令/聊天调优能力的模型。

说实话，在当前阶段，我对目前的学术界有些看不清。大语言模型作为产品阶段之前，人工智能研究的发展相对稳定。

有传言称，在ChatGPT问世之前，自然语言处理（NLP）研究已经逐渐式微，只剩下针对GPT-3的微调工作。目前对大语言模型的关注和研究热潮并不是全新的现象，这种狂热只是加速了自然语言处理（NLP）研究逐渐聚焦于大语言模型微调等领域的过程。

大语言模型成为研究热点之后，学术界与产业界的合作研究可能仍然延续之前的方式。然而，对于那些没有参与到这些特殊合作关系中的研究人员（他们实际上占据了大多数），可能会选择采用不同的研究方法。

换句话说，独立学术研究者的工作很可能在很大程度上预示了该领域发展的趋势。

尽管学术体系存在诸多缺陷，但它确实会定期产生洞见。现在，随着该领域在工业和开源竞争方面的增长，人们将开始探索如何开展除了微调OpenAI API之外的大语言模型研究。然而，新的研究激励措施（如大量用于LLM研究的AI安全资金）需要一定时间才能见效。