智能计算系统第七章深度学习处理器架构

7.1 单核深度学习处理器 DLP-S

从DLP到DLP-S - 计算时 - 多发射队列，支持指令级并行 - 增加运算器的操作，支持硬件高效执行的操作 - 低位宽运算器，提高执行能效 - 稀疏运算，提高计算效率 - 访存 - 转换检测缓冲器TLB，降低访存演出 - 最后一级cache，降低访存延迟

神经元数据流 DRAM→NRAM→VFU→(MFU→VFU)→NRAM→DRAM 权重数据流 DRAM→WRAM→MFU

IFU - 地址生成器 AGU - 指令高速缓存 ICache - 指令回填单元RB - 指令队列 IQ

IDU - 译码单元 - 指令发射队列 IQ - 算术逻辑单元

当输入数据类型是 INT 型时 - AVGPooling 本质是kx*ky向量相乘

存储管理 - NRAM、WRAM、DMA - 虚拟存储：片内片外同一编址 - 片内地址无虚实地址转换 - 片外地址需要虚实转换降低访问延迟 TLB、LLC

多核处理器分层结构设计 - 一个 DLP-M 由多个 DLP-C 构成 - 一个 DLP-C 由多个 DLP-S 构成

DLP-C - 四个 DLP-S - 存储核 MEMCORE - 存储：DLP-S 共享数据 - 通信：DLP-C 与片外 DRAM、DLP-C 之间，多个 DLP-S 之间

广播总线 - 深度学习数据复用特性 - 读写请求：单播写、单播读、多播

CDMA - 执行过程：单播写、CDMA 通信、单播读 - 访存指令：目标 Cluster号、源地址、目的地址、数据大小

多核同步模型 - BARRIER 指令：多核同步指令，解决访存冲突 - BARRIER：Opcode - Barrier_ID：BARRIER 序号 - Task_ID：同步的任务编号 - Sync_Count：需要同步的 Barrier 数 - 双核协同指令流

环形、网状、Torus