论文阅读 BERT GPT – transformer在NLP领域的延伸

本文介绍: 双向编码器加上mask做完形填空超大模型无监督预训练需要整个模型作为pretrain weight到下游任务做fintune总结个毛。

双向编码器 加上mask做完形填空超大模型无监督预训练需要整个模型作为pretrain weight到下游任务做fintune

自回归解码器 无需训练只需Prompt

在这里插入图片描述

BERT需要全部参数进行训练
GPT不需要训练即可完成下游任务
在这里插入图片描述

BERT使用双向的编码器
在这里插入图片描述

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

transformer剪枝论文汇总

互联网 1 年前 4

使用deepspeed继续训练LLAMA

互联网 1 年前 4

【人工智能】Fine-tuning 微调：解析深度学习中的利器(7)

互联网 1 年前 8

GPT-4模型中的token和Tokenization概念介绍

互联网 1 年前 10

Linux 网络编程 + 笔记

linux 1 年前 2

【成品论文】2024美赛B题完整成品论文23页+3小问matlab代码+数据集汇总

互联网 1 年前 3

JVM之GC垃圾回收

互联网 1 年前 4

行为型设计模式—中介者模式

互联网 1 年前 5

文章目录

不会写的很详细，只是为了帮助我理解在CV领域transformer的拓展

1 摘要

1.1 BERT – 核心

1.2 GPT – 核心

2 模型架构

2.1 概览

3 区别

3.1 finetune和prompt

3.2 transformer及训练

总结

发表回复取消回复

文章目录

不会写的很详细，只是为了帮助我理解在CV领域transformer的拓展

1 摘要

1.1 BERT – 核心

1.2 GPT – 核心

2 模型架构

2.1 概览

3 区别

3.1 finetune和prompt

3.2 transformer及训练

总结

相关文章

发表回复 取消回复

发表回复取消回复