选择 LLM:2024 年开源 LLM 入门指南

139686_-_Elastic_-_Headers_-_V1_1.jpg

如果有人说 AI 在 2023 实现了起飞,这绝对有点轻描淡写。众多全新的 AI 工具纷纷问世,现有应用程序纷纷融入了 AI 功能,与此同时,好莱坞因对这项技术的担忧也发起了抵制。甚至还有一个 AI 工具能够评估您模仿皇后乐队主唱弗雷迪·默丘里唱歌的水平,当然会有这样的东西!

但是,在每个 AI 工具或功能背后都有一个大型语言模型 (LLM) 来进行繁重的工作,其中许多模型是开源的。LLM 是一种能够通过消耗大量数据来理解和生成语言的深度学习算法。LLM 建立在神经网络架构的基础之上,人们通过这一架构就可以对其进行训练来执行各种自然语言处理 (NLP) 任务,如内容生成、翻译、分类以及其他许多用例。这一点,结合开源 LLM 的可用性,支持人们十分轻松地对关键业务任务(比如开发客户支持聊天机器人、检测欺诈或者辅助研发(例如疫苗开发))以及跨多个行业的各种其他用例进行自动化。LLM 还可以通过扩展我们处理和分析数据的方式,在改善云安全、搜索和可观察性方面发挥至关重要的作用。

与任何新技术一样,LLM 的应用也带来了需要考虑和解决的挑战。输出质量完全取决于所提供数据的质量。由于许多 LLM 都是使用大型公共数据存储库进行训练的,所以如果人们未使用特定领域的数据对 LLM 进行训练,LLM 往往会“产生幻觉”或给出不准确的回答。此外,围绕着个人信息和用户生成内容的收集、存储和保留,还有隐私和版权问题。

请查看我们关于什么是大型语言模型?的页面以详细了解 LLM。

什么是开源LLM?

开源 LLM 是一种可以免费使用并可由任何人修改和定制的 LLM。

通过开源 LLM,任何个人或企业都可以在不支付许可费用的情况下结合自身资源来使用它。这包括将 LLM 部署到自己的基础架构上,并对其进行微调以符合自身需求。

这与闭源 LLM 相反,闭源 LLM 是由单个个人或组织拥有的专有模型,对公众不可用。这方面最著名的例子就是 OpenAI 的 GPT 系列模型。

LLM 的最佳用例有哪些?

LLM 有无穷无尽的潜在用例,但下面列出了一些关键能力以展示其所能胜任工作的多样性:

  • 情感分析:LLM 可用于对通过反馈、社交媒体等收集到的主观意见进行识别和分类。

  • 内容创作:有数个 LLM 可以生成与上下文相关的内容,如文章、营销文案和产品描述。

  • 聊天机器人:您可以对 LLM 进行微调,将其作为聊天机器人来帮助客户或与客户互动。

  • 翻译:通过使用多语言文本数据,LLM 可用来翻译人类语言以辅助沟通。

  • 研究:LLM 能够轻松处理研究工作,因为它能够使用和处理大量数据,并返回最相关的信息。

2024 年热门开源 LLM

为了让您更轻松地选择适合贵公司或项目的开源 LLM,我们总结了市面上八个最有趣的开源 LLM。我们这份列表的制作依据是活跃的 AI 社区和 Machine Learning 存储库 Hugging Face 上的热度信号。

1. GPT-NeoX-20B

GPT-NeoX-20B 的开发者是 EleutherAI,它是一个旨在从架构方面模仿 GPT-3 的自回归语言模型。它是使用 GPT-NeoX 库进行训练的,数据来自 The Pile(一个由 The Eye 托管的 800GB 的开源数据集)。

GPT-NeoX-20B 的主要开发目的是用于研究,具有 200 亿个可供用户使用和定制的参数。

适用对象?
GPT-NeoX-20B 非常适合需要高级内容生成功能的中大型企业,如营销机构和媒体公司。这些公司需要拥有运行更大规模 LLM 所需的熟练人员和计算能力。

不适用对象?
对于没有财务和技术资源来管理计算要求的小型企业或个人来说,该 LLM 并不合适。 

使用复杂程度
由于它不能按原样部署,所以您需要拥有技术专长来部署和微调 GPT-NeoX-20B 以完成您的特定任务并满足您的具体需求。

2. GPT-J-6b

GPT-J-6b 的开发者也是 EleutherAI,这是一个生成式预训练转换器模型,设计用于根据提示生成类人文本。它是使用 GPT-J 模型进行构建的,拥有 60 亿个可训练参数(所以名称里有表示 60 亿的 6b 字眼)。

由于它是使用纯英语数据集进行训练的,因此不适用于翻译或生成非英语文本。

适用对象?
由于其易用性和相对较小的规模,GPT-J-6b 非常适合寻求在性能和资源消耗之间取得平衡的初创企业和中型企业。

不适用对象?
对于需要更高级模型性能和定制化的企业来说,这个 LLM 可能并非最佳选择。它也不适合需要多语言支持的公司。

使用复杂性
GPT-J-6b 是一个相对而言对用户很友好的 LLM,优势之一是有一个支持性社区,所以它可供具备中等技术知识水平的企业使用。

3. Llama 2

作为对 Google 和 OpenAI 的热门 LLM 的回应,Meta 推出了 Llama 2,这是一个使用可公开获得的在线数据源训练而成的 LLM,旨在打造 AI 驱动型体验。用户可针对具体任务对其进行微调,其可完全免费用于研究和商业用途。

基于 Meta 在 LLaMA 上所完成的工作,Llama 2 提供三个模型规模,分别为 70 亿、130 亿和 700 亿个参数,这使得其成为一个动态且可扩展的选项。

适用对象?
由于提供多个模型规模选项,Llama 2 对于希望利用广泛语言模型的研究人员和教育开发人员是个很好的选择。它甚至可以在消费级计算机上运行,这使得它成为爱好者的一个良好选择。

不适用对象?
Llama 2 不适用于风险较高或更小众的应用场景,因为它不宜用来执行高度专业性的任务,而且关于输出的可靠性也存在一些问题。

使用复杂程度
这是一个相对而言简单易用的 LLM,专注于教育应用场景,但可能需要定制才能获得最佳结果。

4. BLOOM

BLOOM 是一个纯解码器型转换器语言模型,自称拥有高达 1,760 亿个参数。其设计用于根据提示生成文本,用户可对其进行微调以执行特定任务,例如文本生成、汇总、嵌入、分类和语义搜索。

它训练时使用的是由采用 46 种不同语言的数百个源组成的数据集,这使得它成为语言翻译和多语言输出的一个良好选择。

适用对象?
对于面向全球受众且需要多语言支持的规模较大的企业,BLOOM 是一个良好选择。由于该模型的规模很大,企业还需要拥有大量可用资源来运行此模型。

不适用对象?
对于只在讲英语的市场开展业务的公司而言,多语言功能可能有点多余,考虑到定制和训练一个规模如此巨大的模型所需的大量资源,则更是如此。

使用复杂程度
因为用户需要理解语言的细微差别,还需要在不同的语言背景下进行部署,所以 BLOOM 的复杂程度为中等至高等。

5. Falcon

Falcon 也是一个 LLM,其对标对象是 BLOOM,会对 BLOOM 说:“哼,才 1,760 亿个参数?”

好吧,他们实际上并没这么说,但他们的开源语言模型的确有三个出色的规模选项可供选择,分别是 70 亿、400 亿和 1,800 亿。

Falcon 是一个根据 Apache Licence 2.0 获得许可的自回归 LLM,旨在根据提示生成文本,其基础是高质量的 RefinedWeb 数据集。

适用对象?
由于具备出色的性能和可扩展性,Falcon 是对多语言解决方案(例如网站和营销材料的创建、投资分析,以及网络安全)感兴趣的较大型公司的理想之选。

不适用对象?
尽管提供 70 亿个选项,但对于寻求简单的即插即用型内容生成解决方案的公司而言,Falcon 仍然不是最适当的选择。要完成这些类型的任务,对此模型进行定制和训练所耗费的成本还是太过高昂。

使用复杂程度
虽然是规模最大的模型,但相比其他 LLM,Falcon 使用起来还算简单。但是您仍然需要了解自己具体任务的细微差别,以便最充分地利用此模型。

6. CodeGen

Salesforce 推出的此 LLM 与本列表中的其他任何模型都不一样,因为它输出的不是文本类的答案或内容,而是计算机代码。CodeGen 是“code generation”(代码生成)的简写,意思十分简单明了。此模型经过训练,能够基于已有代码或者自然语言提示输出代码。

CodeGen 提供三种规模选择,分别为 70 亿、130 亿和 340 亿个参数,其创建初衷是为软件开发开创一种精简的方法。

适用对象?
CodeGen 适用于寻求对编码任务实现自动化并提高开发人员工作效率的技术公司和软件开发团队。

不适用对象?
如果贵公司不写计算机代码,也不与计算机代码打交道,则此 LLM 不适用于您!

使用复杂程度
将 CodeGen 融入到既有开发工作流程可能十分复杂,而且用户需要在软件工程领域拥有深厚的背景。

7. BERT

BERT 是最早出现的现代 LLM 之一,采用的是纯编码器型转换器架构,在 2018 年由 Google 创建而成。BERT 设计用于理解、生成并操控人类语言。

Google 曾使用自己的 BERT 在搜索中改善对查询的理解,BERT 对于完成其他任务(例如文本生成、问题回答和情感分析)也卓有成效。

适用对象?
鉴于 BERT 是 Google 自有搜索的一个关键部分,它是下列人群的最佳选择:想针对搜索引擎优化网站和内容并提高内容相关性的 SEO 专家和内容创作者。

不适用对象?
除了 SEO,BERT 在很多情况下可能都并非最佳选择,因为它的推出时间太早了,这使得它与更大型且更近期的方案相比,显得有些冗长。

使用复杂程度
对于熟悉 SEO 和内容优化的用户而言,BERT 使用起来相当简单,但用户可能需要对其进行微调以与 Google 近期 SEO 推荐举措中的变化保持一致。

8. T5

T5(朗朗上口的 Text-to-Text Transfer Transformer 的简写)是一种使用文本转文本方法的基于转换器的架构。它会转换 NLP 问题的格式,让输入和输出始终是文本字符串,这使得 T5 可以被用于诸如翻译、问题解答和分类等诸多任务。它提供 5 种不同的规模,从 6,000 万个参数到 110 亿个参数不等。

适用对象?
如果公司需要一款功能多样的工具来完成各种文本转文本处理任务(例如汇总、翻译和分类),则 T5 是个很好的选择。

不适用对象?
尽管 T5 相对而言比较灵活,但是如果任务需要输出任何种类的非文本,T5 都不适合。 

使用复杂程度
人们通常认为相较于其他 LLM,T5 使用更为简单,而且它还提供一系列预训练模型。但用户可能仍需要一些专业知识来对其进行调整,以适用于更小众或更具体的任务。

免责声明:所有参数和模型规模在发布时是准确的,但是发布以后可能会发生变化。

为贵公司选择正确的 LLM

您在决定要使用哪个开源 LLM 时,需要考虑多个关键条件:

  • 成本:由于这些 LLM 都是开源的,所以您无需为这些模型本身付费。但是您的确需要考虑托管、训练和资源等的费用。LLM 规模越大,使用越复杂,您的成本可能就会越高。这是因为更大型的 LLM 需要更多的数据存储成本和处理能力,也需要更大规模的基础架构和更高的维护成本。

  • 正确率:评估您的选择的准确性至关重要。您需要对比不同 LLM 执行所需任务类型时的准确性。例如,有些模型是针对特定领域的,还有一些模型可以通过微调或检索增强生成 (RAG) 加以改进。

  • 绩效:衡量 LLM 的性能时,可以使用诸如语言流利度、连贯性和上下文理解能力等指标。LLM 在这些方面的表现越好,它的性能就越好。这能够改善用户体验和任务效果,让您获得竞争优势。 

  • 数据安全:数据安全是另外一个关键考量。如果您处理的是敏感数据或者 PII(个人可识别信息)数据,则尤为如此。这是 RAG 可以发挥作用的另一个领域,因为您可以使用文档级安全性来控制数据的访问权限,并限制特定数据的安全许可。

  • 特定任务型和通用型的对比:想一想,您需要使用 LLM 解决更加具体的用例,还是解决包含更广泛任务的用例。因为某些模型是针对特定领域的,所以您需要精心选择,要么使用针对您所在领域的 LLM,要么寻找适用于更广范围的 LLM。 

  • 训练数据的质量:如果数据质量不好,那结果也不会好。评估每个 LLM 所使用的数据,并选择能让您感到放心的 LLM。因为通过 RAG 您可以使用自定义数据,所以 RAG 也能帮助您进行评估;因此您可以准备并微调自定义数据以直接改善输出质量。

  • 技能组合:需要考虑的另一个重大因素是您在项目团队内所拥有的技能组合。在数据科学、MLOps 和 NLP 等领域的经验是必不可少的。LLM 越复杂,您的团队所需要的技能组合就要越深入。如果在这一领域受到较大限制,您不妨专注于比较简单的 LLM,甚至可以考虑引入外部专业知识。

通过使用这些标准,您应该能够确定我们所讲的哪个 LLM 最适合您的独特环境。

最好的方法是花时间仔细研究所列举的选项,并评估它们能在多大程度上帮助您解决问题。所有这些开源 LLM 都具有十分强大的功能,如果您能有效加以利用,其可以帮助您实现转型。

本博文所描述的任何特性或功能的发布及上市时间均由 Elastic 自行决定。当前尚未发布的任何特性或功能可能无法按时提供或根本不会提供。

在本博文中,我们可能使用或提到了第三方生成式 AI 工具,这些工具由其各自所有者拥有和运营。Elastic 对第三方工具没有任何控制权,对其内容、操作或使用不承担任何责任或义务,对您使用此类工具可能造成的任何损失或损害也不承担任何责任或义务。在 AI 工具中使用个人、敏感或机密信息时,请务必谨慎。您提交的任何数据都可能用于 AI 训练或其他目的。Elastic 不保证您所提供信息的安全性或保密性。在使用任何生成式 AI 工具之前,您都应自行熟悉其隐私惯例和使用条款。 

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 及相关标志为 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。所有其他公司和产品名称均为其相应所有者的商标、徽标或注册商标。