翻译: GPT4等大型语言模型的原理解析和未来预测慢思考和模型自我迭代和LLM安全

互联网 1 年前 0 2

本文介绍: YouTub e: Intr o t o La rg e Lang ua g e Mod e ls – YouTub e 大家好，最近我做了一个关于大型语言模型的 30 分钟演讲，有点像介绍性演讲，不幸的是，那个演讲没有被录制下来，但很多人在演讲结束后来找我，他们告诉我，呃，他们真的很喜欢这个演讲，所以我会，我想我会重新录制它，基本上把它放在 YouTub e 上，所以我们来了，忙碌的人的大型语言模型简介，主管 Scot t：好的，让我们首先开始，什么是大型语言模型，嗯，大型语言模型只是两个文件. 这个假设的目录下有两个文件，所

YouTub e: Intro to Large Language Models – YouTube
在这里插入图片描述

在这里插入图片描述

大家好，最近我做了一个关于大型语言模型的 30 分钟演讲，有点像介绍性演讲，不幸的是，那个演讲没有被录制下来，但很多人在演讲结束后来找我，他们告诉我，呃，他们真的很喜欢这个演讲，所以我会，我想我会重新录制它，基本上把它放在 YouTube 上，所以我们来了，忙碌的人的大型语言模型简介，主管 Scot t：好的，让我们首先开始，

什么是大型语言模型，嗯，大型语言模型只是两个文件. 这个假设的目录下有两个文件，所以举个例子，用 Lla m a 270b 模型的具体例子，这是 meta Ai 发布的一个大型语言模型，这基本上是 Lla m a 系列的语言模型，它的第二次迭代，这是这个系列的 uh 的 700 亿参数模型，所以有多个模型，呃，属于 Lama 2 系列，呃，70 亿，嗯130亿、340亿、700亿是最大的一个，现在很多人都喜欢这个模式，特别是因为它是
可能是今天最强大的开放权重模型，所以基本上权重、架构和一篇论文都是由 Meta 发布的，所以任何人都可以非常轻松地使用这个模型.
在这里插入图片描述

这与你可能熟悉的许多其他语言模型不同，例如，如果你使用的是聊天 GPT 或类似的东西，呃，模型架构从未发布过，它归 Open AAI 所有，而你是允许通过 Web 界面使用语言模型，但实际上没有访问该模型，因此在本例中，Llama 270b 模型实际上只是文件系统上的两个文件，参数文件和运行，呃，运行这些参数的某种代码，所以参数基本上是这个神经网络的权重或参数，即语言模型，我们稍后会介绍它，因为这是一个 700 亿参数的模型.

每一个这些参数存储为两个字节，因此这里的参数文件是 140 GB，它是两个字节，因为这是一个浮点数 16 作为数据类型，现在除了这些参数之外，这就像一个大的参数列表，呃，对于那个神经网络，你还需要运行该神经网络的东西，这段代码在我们的运行文件中实现，现在这可能是一个 C 文件或 python 文件或任何其他编程语言，真的，它可以编写任何任意语言但是 C 有点像一种非常简单的语言，只是为了给你一种感觉，呃，它只需要大约 500 行 C，没有其他依赖项.

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

youtube 模型演讲

相关文章

transformer剪枝论文汇总

transformer剪枝论文汇总

互联网 1 年前 4

使用deepspeed继续训练LLAMA

使用deepspeed继续训练LLAMA

互联网 1 年前 3

【人工智能】Fine-tuning 微调：解析深度学习中的利器(7)

【人工智能】Fine-tuning 微调：解析深度学习中的利器(7)

互联网 1 年前 6

GPT-4模型中的token和Tokenization概念介绍

GPT-4模型中的token和Tokenization概念介绍

互联网 1 年前 7

Linux 网络编程 + 笔记

Linux 网络编程 + 笔记

linux 1 年前 2

【成品论文】2024美赛B题完整成品论文23页+3小问matlab代码+数据集汇总

【成品论文】2024美赛B题完整成品论文23页+3小问matlab代码+数据集汇总

互联网 1 年前 3

JVM之GC垃圾回收

互联网 1 年前 3

行为型设计模式—中介者模式

互联网 1 年前 4

发表回复取消回复