01.大型语言模型背后的基本概念的高级解释（LLMs）

本文介绍: 在课程中，我们将专注于从头开始理解如何LLMs工作，编写可以生成文本LLM的编码。我们还将学习允许LLMs执行查询的技术，从回答问题到总结文本、将文本翻译成不同的语言等等。换句话说，在本书中，我们将通过一步一步的构建来了解 ChatGPT 等复杂LLM助手的工作原理。

像 ChatGPT 这样的大型语言模型（LLMs）是过去几年开发的深度神经网络模型。他们开创了自然语言处理（NLP）的新时代。在大型语言模型出现之前，传统方法擅长分类任务，例如垃圾邮件分类和简单的模式识别，这些任务可以通过手工制定的规则或更简单的模型来捕获。然而，它们通常在需要复杂理解和生成能力的语言任务中表现不佳，例如解析详细说明、进行上下文分析或创建连贯且适合上下文的原始文本。例如，前几代语言模型无法从关键字列表中编写电子邮件，这对于当代LLMs人来说是微不足道的任务。

LLMs具有理解、生成和解释人类语言的非凡能力。然而，重要的是要澄清，当我们说语言模型“理解”时，我们的意思是它们可以以看起来连贯且与上下文相关的方式处理和生成文本，而不是它们拥有类似人类的意识或理解力。

在深度学习的进步下，深度学习是机器学习和人工智能（AI）的一个子集，专注于神经网络，LLMs在大量文本数据上进行训练。与以前的方法相比，这允许LLMs捕获更深层次的上下文信息和人类语言的微妙之处。因此，LLMs显着提高了各种 NLP 任务的性能，包括文本翻译、情感分析、问答等等。

当代LLMs和早期 NLP 模型之间的另一个重要区别是，后者通常是为特定任务而设计的;而那些早期的 NLP 模型在其狭窄的应用中表现出色，LLMs但在广泛的 NLP 任务中表现出更广泛的熟练程度。

背后的LLMs成功可以归因于 transformer 架构，它支撑着许多 LLMs，并且大量数据LLMs经过训练，使它们能够捕获各种语言细微差别、上下文和模式，而这些都很难手动编码。

这种向实现基于 transformer 架构的模型并使用大型训练数据集进行训练LLMs的转变从根本上改变了 NLP，为理解人类语言和与人

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。