Safe and Practical GPU Computation in TrustZone论文阅读笔记

本文介绍: 移动设备上的GPU从前是为了加速图形渲染，现在是为了机器学习推理和联邦学习。Arm TrustZon e 是一个可信执行环境(TEE) ，其中敏感代码与不可信操作系统隔离，确保执行的保密性和完整性。虽然 Trus tZon e 已经能够隔离 GPU 硬件[15,44] ，但最大的障碍是 GPU 软件栈(简称 GPU stack1) ，它很大[46] ，并且以漏洞能力而闻名[4,5,60]。现有技术转换 GPU 栈[71]或工作负载[7,61,69]以适应 TEE;

摘要

对于移动设备，在Trus tZone**可信执行环境(TEE)**中运行敏感的GPU计算是很有吸引力的。为了最小化部署在 TEE 中的 GPU 软件，重播方法是有前途的：在 TEE 之外的一个完整的 GPU 堆栈上记录 CPU/GPU 交互; 重播 TEE 内部没有 GPU 堆栈的交互。一个关键的难题是，记录过程必须两者兼而有之（1）在安全环境下发生（2）访问要用于重播的确切GPU模型。为此，我们提出了一种新的记录架构，称为GR-T：拥有GPU硬件的移动设备与运行GPU软件的无GPU云服务协作，双方共同使用图形处理器的硬件/软件进行记录。为了克服由此产生的网络延迟，GR-T提供了优化：寄存器访问延迟、推测和仅元同步。这些技术将记录延迟减少了20倍，从几百秒减少到几十秒。基于重放的 GPU 计算与 TEE 之外的本机执行相比，延迟减少了25% 。

Arm TrustZone 是一个可信执行环境(TEE) ，其中敏感代码与不可信操作系统隔离，确保执行的保密性和完整性。虽然 TrustZone 已经能够隔离 GPU 硬件[15,44] ，但最大的障碍是 GPU 软件栈(简称 GPU stack1) ，它很大[46] ，并且以漏洞能力而闻名[4,5,60]。现有技术转换 GPU 栈[71]或工作负载[7,61,69]以适应 TEE; 然而，它们会导致高工程成本和兼容性损失，这将在第2节中进行分析。

我们最近的工作[57](下面称为 GR)阐明了如何通过 GPU 记录/重放[14,35,41,70]在 TrustZone TEE 中部署精益 GPU 堆栈。介入 CPU/GPU 的边界，GR 会分两个阶段执行一个 GPU 工作负载 W，例如神经网络推理。

（1）记录阶段在完整的 GPU 堆栈上运行 W，并将 CPU/GPU 的交互记录为一系列寄存器访问和内存转储。

（2）重播阶段通过在新输入上重播预先录制的 CPU/GPU 交互运行 W，而不需要 GPU 堆栈。

优化：只检查上述条件有一个缺点：在预测错误的情况下，驱动程序和 GPU 都必须回滚到有效状态，因为它们都可能基于预测错误的寄存器值执行。清单1(b)显示了一个例子：如果在第二次提交后发现 JOB_IRQ_STATUS (第2行)的读取被错误预测(第10行) ，驱动程序已经包含一个不正确的状态(在 dev 中) ，并且 GPU 已经执行了不正确的寄存器访问(例如写入 JOB_IRQ_CLEAR)。

这是通过避免向客户泄露投机状态发挥作用的。具体来说，Driver-Shim 在提交注册器访问之前会额外地停止驱动程序，这些注册器访问本身是推测性的，即对预测值具有依赖性。例如，在清单1(b)中，如果第一次提交尚未完成，则第二次提交必须停止，因为第二次提交包含随意依赖于第一次提交结果的寄存器访问(JOB_IRQ_CLEAR 和 TILER/SHADER_PREENT)。为了跟踪推测的寄存器访问，DriverShim 污染了预测的寄存器值，并在驱动程序执行中跟踪它们的数据/控制依赖关系。在上面的示例中，当驱动程序根据推测值(第3行)获取条件分支时，DriverShim 将该分支上所有更新的变量和状态污染为推测值，例如 dev-> tiler。为了完整起见，污点跟踪应用于驱动程序调用的任何内核代码。