选择 LLM:2024 年开源 LLM 入门指南

如果说 AI 在 2023 年“腾飞”,那绝对是轻描淡写。成千上万的新 AI 工具陆续推出,现有应用也加入了 AI 功能,好莱坞也因对这项技术的担忧而一度陷入停摆。甚至还有一款 AI 工具可以评估您唱得有多像 Freddie Mercury — 当然,这样的工具也出现了!
但在每个 AI 工具或功能的背后,都有一个大型语言模型 (LLM) 在承担着所有繁重的工作,其中许多 LLM 都是开源的。LLM 是一种深度学习算法,能够处理大量数据以理解和生成语言。LLM 建立在神经网络架构之上,可通过训练来执行各种自然语言处理 (NLP) 任务,例如内容生成、翻译、分类和许多其他用例。这一点,再加上开源 LLM 的可用性,使得关键业务任务的自动化变得更加容易,例如开发客户支持聊天机器人、检测欺诈或协助研发(如疫苗开发),以及跨行业的各种其他用例。通过扩展我们处理和分析数据的方式,LLM 还能在提高云安全性、搜索和可观测性方面发挥重要作用。
与任何新技术一样,LLM 的使用也伴随着需要考虑和解决的挑战。输出质量完全取决于输入数据的质量。许多 LLM 都基于大型公共数据存储库进行训练;如果没有针对特定领域数据进行训练,它们往往会“产生幻觉”或给出不准确的回答。此外,围绕个人信息和用户生成内容的收集、存储和保留,也存在隐私和版权方面的担忧。
如需详细了解 LLM,请参阅《什么是大型语言模型?》。
什么是开源 LLM?
开源 LLM 是一种可以免费使用并可由任何人修改和定制的 LLM。
借助开源 LLM,任何个人或企业都可以根据自身需求使用它,而无需支付许可费用。这包括将 LLM 部署到自己的基础架构,并对其进行微调以满足自身需求。
这与闭源 LLM 正好相反。闭源 LLM 是由某个人或组织拥有的专有模型,公众无法使用。其中最著名的例子就是 OpenAI 的 GPT 系列模型。
观看此视频,深入了解大型语言模型:

LLM 的最佳用例有哪些?
LLM 有无穷无尽的潜在用例,但下面列出了一些关键能力以展示其所能胜任工作的多样性:
情感分析:LLM 可用于对通过反馈、社交媒体等收集到的主观意见进行识别和分类。
内容创作:有数个 LLM 可以生成与上下文相关的内容,如文章、营销文案和产品描述。
聊天机器人:您可以对 LLM 进行微调,将其用作聊天机器人来帮助客户或与客户互动。
翻译:通过使用多语言文本数据,LLM 可用于翻译人类语言,从而帮助沟通。
- 研究:LLM 可以让研究工作变得轻松,因为它们能够消化和处理海量数据,并返回最相关的信息。
2024 年 9 个热门开源 LLM
为了让您更轻松地为您的公司或项目选择开源 LLM,我们总结了八个最有趣的开源 LLM。我们这份列表的制作依据是活跃的 AI 社区和机器学习存储库 Hugging Face 上的热度信号。
1. GPT-NeoX-20B
GPT-NeoX-20B 由 EleutherAI 开发,是一种自回归语言模型,架构设计上类似于 GPT-3。它使用 GPT-NeoX 库进行训练,训练数据来自 The Pile,这是一个由 The Eye 托管的 800 GB 开源数据集。
GPT-NeoX-20B 的主要开发目的是用于研究,具有 200 亿个可供用户使用和定制的参数。
它的适用对象是谁?
GPT-NeoX-20B 非常适合需要高端内容生成的中大型企业,如营销机构和媒体公司。这些企业需要既有技术娴熟的人员,也需要运行更大规模的大型语言模型所需的计算能力。
它不适合谁?
对于没有财务和技术资源来管理计算需求的小型企业或个人来说,这款 LLM 并不合适。
使用复杂度
由于它并非设计为可直接部署,因此您需要具备相应技术专业知识,才能针对您的具体任务和需求部署并微调 GPT-NeoX-20B。
2. GPT-J-6b
GPT-J-6b 的开发者也是 EleutherAI,这是一个生成式预训练转换器模型,设计用于根据提示生成类人文本。它是使用 GPT-J 模型进行构建的,拥有 60 亿个可训练参数(所以名称里有表示 60 亿的 6b 字眼)。
由于它是使用纯英语数据集进行训练的,因此不适用于翻译或生成非英语文本。
这是给谁的?
由于其易用性和相对较小的规模,GPT-J-6b 非常适合寻求在性能和资源消耗之间取得平衡的初创企业和中型企业。
它不适合谁?
对于需要更高级模型性能和自定义能力的企业而言,这款 LLM 可能不是最佳选择。对于需要多语言支持的公司来说,它也不太合适。
使用复杂度
GPT-J-6B 是一款易用性适中的 LLM,拥有支持性社区这一优势,因此适合具备中等技术知识水平的企业使用。
3. Llama 2
作为 Meta 对 Google 和 OpenAI 热门 LLM 的回应,Llama 2 基于公开可用的在线数据源进行训练,旨在创建 AI 驱动型体验。它可以针对特定任务进行微调,并且完全免费,可用于研究和商业用途。
基于 Meta 在 LLaMA 上的工作,Llama 2 提供三种模型规模——70 亿、130 亿和 700 亿参数——这使其成为一个动态且可扩展的选项。
它适合谁?
得益于多种模型规模选项,Llama 2 非常适合希望利用大型语言模型的研究人员和教育开发者。它甚至可以在消费级计算机上运行,因此也是业余爱好者的不错选择。
它不适用于谁?
Llama 2 不适用于风险较高或更小众的应用场景,因为它不宜用来执行高度专业性的任务,而且关于输出的可靠性也存在一些问题。
使用复杂度
这是一款相对易用的 LLM,重点面向教育应用;但为了获得最佳效果,可能仍需要进行自定义。
4. BLOOM
BLOOM 是一种仅解码器 Transformer 语言模型,拥有多达 1,760 亿个参数。它旨在根据提示生成文本,并可通过微调执行文本生成、摘要、嵌入、分类和语义搜索等特定任务。
它训练时使用的是由采用 46 种不同语言的数百个源组成的数据集,这使得它成为语言翻译和多语言输出的一个良好选择。
它适合谁?
BLOOM 非常适合面向全球受众、需要多语言支持的大型企业。由于模型规模庞大,企业还需要有充足可用资源来运行它。
它不适合谁?
仅在英语市场开展业务的公司可能会觉得它的多语言能力并非必要,尤其是在自定义和训练如此庞大的模型需要大量资源的情况下。
使用复杂度
由于需要理解语言细微差别,并在不同语言环境中进行部署,BLOOM 的复杂度为中等至高。
5. Falcon
Falcon 是一款 LLM,它仿佛看着 BLOOM 说“哼,才 1,760 亿个参数?”。
好吧,它们实际上并没有这么说,但这款开源语言模型确实提供了三种令人印象深刻的规模:70 亿、400 亿和 1,800 亿参数。
Falcon 是一个根据 Apache Licence 2.0 获得许可的自回归 LLM,旨在根据提示生成文本,其基础是高质量的 RefinedWeb 数据集。
它的适用对象是谁?
由于具备出色的性能和可扩展性,Falcon 是对多语言解决方案(例如网站和营销材料的创建、投资分析,以及网络安全)感兴趣的较大型公司的理想之选。
它不适合谁?
虽然有 70 亿参数这一选项,但对于想要简单即插即用型内容生成解决方案的企业来说,它仍然不是最佳选择。对于这类任务而言,自定义和训练模型的成本仍然过高。
使用复杂度
尽管最大规模的模型体量庞大,但与其他一些 LLM 相比,Falcon 相对易用。不过,您仍需要了解具体任务的细微差别,才能充分发挥它们的价值。
6. CodeGen
Salesforce 的这款 LLM 与本列表中的其他 LLM 都不同,因为它输出的不是文本答案或内容,而是计算机代码。CodeGen 是“代码生成”的简称,而这正是它的功能。它经过训练,可以根据现有代码或自然语言提示输出代码。
CodeGen 提供三种规模选择,分别为 70 亿、130 亿和 340 亿个参数,其创建初衷是为软件开发开创一种精简的方法。
它适合谁?
CodeGen 适用于希望实现编码任务自动化并提高开发者工作效率的技术公司和软件开发团队。
它不适用于谁?
如果贵公司不写计算机代码,也不与计算机代码打交道,那么此 LLM 不适用于您!
使用复杂度
将 CodeGen 融入到既有开发工作流程可能十分复杂,而且用户需要在软件工程领域拥有深厚的背景。
7. BERT
作为最早的现代 LLM 之一,BERT 是 Google 于 2018 年创建的一种仅编码器 Transformer 架构。它旨在理解、生成和处理人类语言。
Google 曾使用自己的 BERT 在搜索中改善对查询的理解,BERT 对于完成其他任务(例如文本生成、问题回答和情感分析)也卓有成效。
它适合谁?
鉴于 BERT 是 Google 自有搜索的关键组成部分,对于想要针对搜索引擎优化网站内容、提升相关性的 SEO 专家和内容创作者来说,它无疑是最佳选择。
它不适用于谁?
除了 SEO,BERT 在很多情况下可能都并非最佳选择,因为它的推出时间太早了,这使得它与更大型且更近期的方案相比,显得有些冗长。
使用复杂度
对于熟悉 SEO 和内容优化的用户而言,BERT 使用起来相当简单,但可能需要进行微调以跟上 Google 近期 SEO 推荐变化的步伐。
8. T5
T5(Text-to-Text Transfer Transformer,这名字确实有点绕口)是一种基于 Transformer 的架构,采用了“文本到文本”的处理方法。它能将 NLP 问题转化为输入和输出均为文本字符串的格式,这意味着 T5 可胜任翻译、问答和分类等多种任务。它提供五种不同的规格,参数量从 6,000 万到 110 亿不等。
它适合谁?
对于需要多用途工具来处理各种文本到文本任务(例如摘要、翻译和分类)的公司来说,T5 是一个很好的选择。
它不适用于谁?
尽管 T5 相对灵活,但它不适合需要任何非文本输出的任务。
使用复杂度
与其他 LLM 相比,T5 通常被认为较易使用,并且有一系列预训练模型可供选择。不过,要适配更小众或更具体的任务,可能仍需要一定专业知识。
9. Mixtral 8x7B
Mixtral 8x7B 代表了稀疏专家混合模型的最前沿进展。Mixtral 拥有开源权重和 Apache 2.0 许可,在速度和效率方面超越了其他模型(没错,我说的就是你们,Llama 2 和 GPT-3.5),改变了游戏规则。它尤其擅长处理各种语言,并在代码生成和指令跟踪方面表现出色。
它适合谁?
Mixtral 面向希望利用前沿 AI 技术处理多样化复杂任务的开发者和组织。对于希望开展创新的人来说,它有望成为一项宝贵资产。
它不适用于谁?
如果您是机器学习新手,或者计算能力较弱,使用 Mixtral 可能会有点牵强。
使用复杂度
使用 Mixtral 需要一定投入,但回报也相当可观。其独特架构和规模要求用户对 NLP 概念有一定了解,可能还需要一些额外配置。这段旅程并不适合新手。不过,强大的 Hugging Face 社区和丰富的文档提供了宝贵资源,可帮助您入门。请记住,掌握这一重量级工具需要付出努力,但释放高级 NLP 能力的潜力值得迎接这一挑战。
免责声明:所有参数和模型规模在发布时是准确的,但是发布以后可能会发生变化。
为贵公司选择正确的 LLM
在决定使用哪个开源 LLM 时,您需要考虑几个关键标准:
成本:由于这些是开源 LLM,您无需为模型本身付费。但您确实需要考虑托管、训练、资源等方面的成本。LLM 越大、越复杂,成本就可能越高。这是因为更大的 LLM 需要更多数据存储成本、处理能力、更大的基础架构以及维护成本。
准确性:评估选项的准确性至关重要。您需要对比不同 LLM 执行所需任务类型时的准确性。例如,有些模型是针对特定领域的,还有一些模型可以通过微调或检索增强生成 (RAG) 进行改进。
性能:衡量 LLM 的性能时,可以使用诸如语言流利度、连贯性和上下文理解能力等指标。LM 在这些方面的表现越好,它的性能就越好。这能够改善用户体验和任务效果,让您获得竞争优势。
数据安全:数据安全性是另一个核心考量因素。如果您正在处理敏感数据或 PII 数据,这一点尤为重要。这也是 RAG 可以发挥作用的另一个领域,因为您可以利用文档级安全性来控制数据访问,并针对特定数据限制安全权限。
特定任务与通用任务:请考虑您需要的是解决特定用例的 LLM,还是覆盖更广泛任务的 LLM。由于某些模型面向特定领域,您需要谨慎选择:要么在您的领域内选择一个,要么寻找一个适用范围更广的模型。
训练数据质量:如果数据质量不佳,结果也不会好。请评估每个 LLM 使用的数据,并选择您信任的模型。RAG 在这方面也能提供帮助,因为您可以使用经过准备和微调的自定义数据,直接提升输出质量。
技能组合:另一个需要考虑的重要因素是项目团队现有的技能组合。数据科学、MLOps 和 NLP 等方面的经验必不可少。LLM 越复杂,团队需要具备的技能就越深入。如果您在这方面能力有限,则值得优先关注较简单的 LLM,甚至考虑引入更多专业知识。
通过使用这些标准,您应该能够确定我们所讲的哪个 LLM 最适合您的独特环境。
最好的方法是花时间仔细研究所列举的选项,并评估它们能在多大程度上帮助您解决问题。所有这些开源 LLM 都具有十分强大的功能,如果您能有效加以利用,其可以帮助您实现转型。
您接下来应该怎么做
准备好后……以下是我们可以通过四种方式帮助您将数据应用于业务:
- 开始免费试用并了解 Elastic 可以为贵公司提供什么帮助。
- 浏览我们的解决方案,了解 Elasticsearch 平台的运行方式,以及我们的解决方案如何满足您的需求。
- 观看我们 45 分钟的网络研讨会,了解如何设置您的 Elasticsearch 集群并开始完成数据收集和采集。
- 通过电子邮件、LinkedIn、Twitter 或 Facebook 向您认识且可能喜欢阅读本篇文章的人分享本篇文章。
本文中描述的任何功能或功能性的发布和时间均由 Elastic 自行决定。当前尚未发布的任何功能或功能性可能无法按时提供或根本无法提供。
在本博文中,我们可能使用或提到了第三方生成式 AI 工具,这些工具由其各自所有者拥有和运营。Elastic 对第三方工具没有任何控制权,对其内容、操作或使用不承担任何责任或义务,对您使用此类工具可能造成的任何损失或损害也不承担任何责任或义务。请谨慎使用 AI 工具处理个人、敏感或机密信息。您提交的任何数据都可能用于 AI 训练或其他目的。Elastic 不保证您所提供信息的安全性或保密性。在使用任何生成式 AI 工具之前,您都应自行熟悉其隐私惯例和使用条款。
Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 及相关标志为 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。所有其他公司和产品名称均为其相应所有者的商标、徽标或注册商标。