本文介绍: 在PIPE-中的一个块,在SEQ+中以完全相同的形式不存在,这个块被标记为“Select A”,位于解码阶段。这些指令没有一个需要寄存器文件读取的值。在SEQ+的各个阶段之间插入流水线寄存器,并稍微重新排列信号,得到了PIPE−处理器,其中名称中的“−”表示处理器性能略低于我们的最终处理器设计然后,当新的时钟周期开始时,这些值通过完全相同的逻辑传播,以计算当前指令的PC。在流水线设计中的目标是在每个时钟周期发出一个新指令,这意味着在每个时钟周期,一个新指令进入执行阶段,并最终完成。

General Principles of Pipelining

Computational Pipelines

在这里插入图片描述
circuit delays in units of picoseconds (abbreviatedps”), or 10−12 seconds.
在这里插入图片描述

throughput in units of gigainstructions per second (abbreviated GIPS), or billions of instructions per second.
在这里插入图片描述

A Detailed Look at Pipeline Operation

在这里插入图片描述
在这里插入图片描述

Limitations of Pipelining

在这里插入图片描述

Diminishing Returns of Deep Pipelining

在这里插入图片描述

Pipelining a System with Feedback

data dependency例子:
在这里插入图片描述

sequential dependencies occurs due to the instruction control flow.
条件测试结果决定了接下来执行指令是irmovq指令(第4行)还是halt指令(第7行)。

在这里插入图片描述

在这里插入图片描述
b, the result of I1 becomes an input to I2
d, the result of I1 becomes an input to I4.

Pipelined Y86-64 Implementations

在这里插入图片描述

SEQ+: Rearranging the Computation Stages

在这里插入图片描述
a) PC计算发生在时钟周期结束时,根据当前时钟周期内计算得到的信号值,计算PC寄存器的新值。
b) 创建状态寄存器保存指令执行期间计算得到的信号然后,当新的时钟周期开始时,这些值通过完全相同的逻辑传播,以计算当前指令的PC。

在这里插入图片描述
从SEQ移动到SEQ+的转换是一种被称为电路定时的通用转换
定时改变了系统状态表示,而不改变其逻辑行为。它通常用于平衡流水线系统不同阶段之间的延迟

电路定时是一种优化技术,旨在通过重新安排寄存器的位置来改进电路性能通过重新定时电路可以改善电路时序性能,减少时序违规和提高时序裕度,从而提高电路工作频率和性能。这种优化技术通常用于数字电路设计中,特别是在集成电路设计高性能计算系统中。

Inserting Pipeline Registers

在SEQ+的各个阶段之间插入流水线寄存器,并稍微重新排列信号,得到了PIPE−处理器,其中名称中的“−”表示处理器的性能略低于我们的最终处理器设计。PIPE−的结构如图所示。在这个图中,流水线寄存显示为蓝色方框,每个方框包含不同的字段,这些字段显示为白色方框。如白色方框所示,由于包含多个字段,每个流水线寄存包含多个字节和字。与顺序处理器的硬件结构显示圆角方框中的标签不同,这些白色方框代表实际的硬件组件
PIPE−使用了几乎与我们的顺序设计SEQ相同的硬件单元,但是流水线寄存分隔各个阶段。在这里插入图片描述

在这里插入图片描述

Rearranging and Relabeling Signals

PIPE-, 信号在流水线中通过执行内存阶段传递,并在它们到达写回阶段后才被指向存器文件
SEQ+, 可以直接将这些信号连接到寄存器文件写入端口地址输入

在这里插入图片描述

在PIPE-中的一个块,在SEQ+中以完全相同的形式不存在,这个块被标记为“Select A”,位于解码阶段。我们可以看到,这个块通过选择来自流水线寄存器D的valP或者来自寄存器文件A端口的值来生成流水线寄存器E的valA。这个块的作用是减少必须传递到流水线寄存器E和M的状态量。在所有不同的指令中,只有call指令需要memory stage使用valP。只有jump指令需要execute stage使用valP的值(如果跳转没有发生)。这些指令中没有一个需要从寄存器文件中读取的值。因此,我们可以通过合并两个信号并将它们作为单个信号valA在流水线中传递来减少流水线寄存器状态的数量。这消除了SEQ和SEQ+中标记为“Data”的模块需要。在硬件设计中,通常会仔细确定信号的使用方式然后通过合并这些信号来减少寄存器状态和布线的数量。

Next PC Prediction

在这里插入图片描述
pc是在fetch阶段更新的,一般作为ret时候地址
也有其他的情况会需要内存阶段获取地址

流水线设计中的目标是在每个时钟周期发出一个新指令,这意味着在每个时钟周期,一个新指令进入执行阶段,并最终完成。
为了做到这一点,必须确定在获取当前指令后的下一条指令的位置。所以需要预测PC。

Pipeline Hazards

在这里插入图片描述
3个nop指令会创建一个延迟
在这里插入图片描述
2个nop指令的情况:
第二个irmovq指令处于写回阶段,因此对程序寄存器%rax写入只会发生在时钟上升时的第7个周期开始。所以存在hazard。
在这里插入图片描述
1个nop指令的情况:
对寄存器%rdx的待定写入仍处于写回阶段,对寄存器%rax的待定写入仍处于内存阶段。valA和valB两个操作数都获得了不正确的值。

在这里插入图片描述
没有nop 指令的情况:
addq指令从寄存器文件中读取其源操作数。对寄存器%rdx的待定写入仍在内存阶段,而寄存器%rax的新值正在执行阶段计算中。valA和valB两个操作数都获得了不正确的值。

Avoiding Data Hazards by Stalling

处理可以通过在解码阶段暂停一个指令,直到其他指令通过写回阶段,从而避免数据冲突

stalling技术和直接使用nop之间的区别在于它们处理数据冲突方式。停顿技术会在发现数据冲突时暂停执行,等待相关数据可用后再继续执行。这意味着处理器在等待期间不会浪费任何周期。而直接使用nop指令则是在发现数据冲突时在流水线中插入一个空操作指令,以消耗一个周期的时间,而不会等待相关数据就绪。因此,停顿技术能够更有效地利用处理器的资源,而直接使用nop则可能会导致一些浪费。

在这里插入图片描述
第六个周期时, irmovq指令处于写回阶段,因此对程序寄存器%rax的写入只会发生在时钟上升时的第7个周期开始。存在data hazard, stall control logic 插入了一个bubble 在execute 阶段和重复decodingcycle 7,相当于插入了一个一个nop 指令。
在这里插入图片描述
插入了3个 bubble。
decode stage, 暂停addq指令时,我们还必须暂停在fetch stage阶段的halt指令。可以通过保持程序计数器固定值来实现这一点,这样就会重复获取halt指令,直到stall完成。
In these figures the arrow between the box labeled “D” for the addq instruction and the box labeled “E” for one of the pipeline bubbles indicates that a bubble was injected into the execute stage in place of the addq instruction.
教科书表示这个技术不是很好。

Writes and reads of the data memory both occur in the memory stage. By the time an instruction reading memory reaches this stage, any preceding instructions writing memory will have already done so. 所以一般对memory读写不会出现hazard.
On the other hand, there can be interference between instructions writing data in the memory stage and the reading of instructions in the fetch stage, since the instruction and data memories reference a single address space. 另一方面,memory阶段中的指令写入数据fetch阶段中的指令读取之间可能会发生干扰,因为指令存储器数据存储器引用同一地址空间。暂时不考虑这个问题

Avoiding Data Hazards by Forwarding

在这里插入图片描述
Rather than stalling until the write has completed, it can simply pass the value that is about to be written to pipeline register E as the
source operand.
2个nop的情况:
使用W_ValE 而不是 R[%rax]
在这里插入图片描述
1个nop的情况:
使用W_valE 和 M_valE 而非 R[%rdx] 和 R[%rax]

在这里插入图片描述
没有nop的情况:
使用M_valE 和 e_valE

Note that using the ALU output does not introduce any timing problems.
在这里插入图片描述
增加了Sel+FwdA 和 FwdB
block labeled “Sel+FwdA” combines the role of the block labeled “SelectA” in PIPE− with the forwarding logic.
block labeled “Fwd B” implements the forwarding logic for source operand valB.

call 指令只使用srcB, 所以使用valA存储valP。
jmp指令不使用srcB和srcA, 所以也可以使用valA存储valP。

Load/Use Data Hazards

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
4.53 这个例子需要到memory stage 才能获取到%rax 的值。
instruction (the mrmovq at address 0x028) reads a value from memory
所以4.53 这个例子是存在data hazard.

在这里插入图片描述
采用stalling 和 forwarding 结合方式
This use of a stall to handle a load/use hazard is called a load interlock.

Avoiding Control Hazards

Control hazards arise when the processor cannot reliably determine the address of the next instruction based on the current instruction in the fetch stage. control hazards can only occur in our pipelined processor for ret and jump instructions.

ret 指令:
在这里插入图片描述
对应的流水线图:
在这里插入图片描述

mispredicted branch:
jump 指令:
在这里插入图片描述
对应的流水线图:
在这里插入图片描述
流水线预测分支将被采取,因此开始在跳转目标处获取指令。在误判在第4个周期被检测到之前,已经获取了两条指令,当跳转指令通过执行阶段时。在第5个周期,流水线通过向解码和执行阶段注入气泡取消这两个目标指令,并且还获取了跳转后的指令。

Exception Handling

the pipeline control logic must disable any updating of the condition code register or the data memory when an instruction in the memory or write-back stages has caused an exception.
to include a status code stat in each of our pipeline registers

PIPE Stage Implementations

在这里插入图片描述

PC Selection and Fetch Stage

在这里插入图片描述
call 指令只使用srcB, 所以使用valA存储valP。
jmp指令不使用srcB和srcA, 所以也可以使用valA存储valP。
ret需要内存获取valp存储内容,作为新的pc
在这里插入图片描述
select pc 模块对应hcl代码
在这里插入图片描述
predict pc 模块对应hcl代码:

Decode and Write-Back Stages

在这里插入图片描述
在这里插入图片描述
decode 阶段hcl 代码:

#设置从寄存器文件中读取的源
word d_srcA = [
  D_icode in {IRRMOVQ, IRMMOVQ, IOPQ, IPUSHQ} : D_rA; #这些指令需要从寄存器rA中读取数据
  D_icode in {IPOPQ, IRET}                    : RRSP; #需要设置栈顶指针,所以需要读取栈值
  1                                           : RNONE;
];
word d_srcB = [
  D_icode in {IOPQ, IRMMOVQ, IMRMOVQ}     : D_rB; #从内存中读取时需要从寄存器中读取偏移量
  D_icode in {IPUSHQ, IPOPQ, ICALL, IRET} : RRSP;
  1                                       : RNONE;
];
#设置写入寄存器文件的目的
#注意:在译码阶段并不会进行写入,只是先计算出当前指令需要的目的寄存器地址,保存到流水线寄存器中,而后在写回阶段才使用
word d_dstE = [
  D_icode in {IRRMOVQ, IIRMOVQ, IOPQ}     : D_rB;
  D_icode in {IPUSHQ, IPOPQ, ICALL, IRET} : RRSP;
  1                                       : RNONE;
];
word d_dstM = [
  D_icode in {IMRMOVQ, IPOPQ} : D_rA;
  1                           : RNONE;
];

#通过合并信息转发机制设置valA的值
word d_valA = [
  #合并信息
  D_icode in {ICALL, IJXX} : D_valP;
  #按照转发源的优先级设置转发
  d_srcA == e_dstE         : e_valE;
  d_srcA == M_dstM         : m_valM;
  d_srcA == M_dstE         : M_valE;
  d_srcA == W_dstM         : W_valM;
  d_srcA == W_dstE         : W_valE;
  #默认都是从寄存器文件中读取的
  1                        : d_rvalA;
];
#通过转发机制设置valB的值
word d_valB = [
  d_srcB == e_dstE         : e_valE;
  d_srcB == M_dstM         : m_valM;
  d_srcB == M_dstE         : M_valE;
  d_srcB == W_dstM         : W_valM;
  d_srcB == W_dstE         : W_valE;
  1                        : d_rvalB;
];

在这里插入图片描述

在这里插入图片描述
流水线实现应该总是优先考虑最早的流水线阶段中的转发源,因为它保存程序序列中设置寄存器的最新指令。例如e 早于 m, 早于 w。

在这里插入图片描述
write-back 阶段的hcl代码:
在这里插入图片描述

Execute Stage

在这里插入图片描述
updating of the condition codes should be suppressed
在这里插入图片描述

bool set_cc = E_icode == IOPQ && #首先要保证当前指令是算数指令,才会设置CC
  !m_stat in {SADR, SINS, SHLT} && #保证上一条处在访存阶段的指令没有出现异常
  !W_stat in {SADR, SINS, SHLT}; #保证上两条指令没有出现异常

memory stage

在这里插入图片描述
部分代码seq和hcl相似

#设置内存地址
word mem_addr = [
  M_icode in {IRMMOVQ, IPUSHQ, ICALL, IMRMOVQ} : M_valE;
  M_icode in {IPOPQ, IRET}                     : M_valA;
];

#设置读写控制信号
bool mem_read = M_icode in {IMRMOVQ, IPOPQ, IRET};
bool mem_write = M_icode in {IRMMOVQ, IPUSHQ, ICALL};

#由于当前阶段可能出现内存地址错误,所以还需要设置状态
word m_stat = [
  dmem_error :SADR;
  1          : M_stat;
];

#将其他需要的值传递下去
word w_dstE = W_dstE;
word w_valE = W_valE;
word w_dstM = W_dstM;
word w_valM = W_valM;

相关知识

描的时间转换

当涉及到秒(s)、纳秒(ns)、毫秒(ms)、微秒(μs)和皮秒(ps)等时间单位转换时,以下是一些常见转换关系

1秒(s)= 1,000毫秒(ms
1毫秒(ms)= 1,000微秒(μs)
1微秒(μs)= 1,000纳秒(ns)
1纳秒(ns)= 1,000皮秒(ps

因此,可以使用这些转换关系将秒、毫秒、微秒、纳秒和皮秒之间进行转换

links

https://zhuanlan.zhihu.com/p/107760564

原文地址:https://blog.csdn.net/weixin_43876597/article/details/134572418

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_22524.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注