本文介绍: TensorRT 是一套可用于高效实现DL模型推理的SDK,它内含infer优化器和运行环境,能让DL模型在更低的资源占用的条件下,以更快的的运行。在TensorRT中,我们可以用API手动地一个Layer一个Layer地搭建Network,也可以直接使用来自ONNX的模型,如果使用后者,就不需要一层一层地搭建模型。
TensorRT 自学笔记001 基础知识点和学习资源
各位大佬,这是我的自学笔记,如有错误请指正,也欢迎在评论区学习交流,谢谢!
TensorRT简介:
TensorRT 是一套可用于高效实现DL模型推理的SDK,它内含infer优化器和运行环境,能让DL模型在更低的资源占用的条件下,以更快的的运行。在TensorRT中,我们可以用API手动地一个Layer一个Layer地搭建Network,也可以直接使用来自ONNX的模型,如果使用后者,就不需要一层一层地搭建模型。
各种链接
Jetpack SDK
TensorRT文档
C++ API文档
Python API
TensoRT 下载
B站课程示例代码
B站官方课程链接
TensorRT的工作流程
构建期
加载模型,并优化模型,计算图优化,将多个层合并为一个层,消除无用层,导入用户自定义的plugin(可选)
注:上述这些操作都是为了,加快模型的推理速度,同时降低模型的资源消耗(CPU资源,内存资源)。
运行期
维护运行环境,然后序列化和反序列化engine
名词解释
下面是一些名词和功能的解释
显存池复用:
logger
builder
builderconfig
explicit batch显性批次和implicit batch隐性批次
Dynamic Shape
Layer和Tensor
Network
context
CUDA异构计算
序列化和反序列化
模型的TensorRT部署方式
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。