国产AI芯片厂商新突破！入选ISCA 2026，破解AI芯片静态调度困局

奕行智能动态调度架构论文入选计算机架构国际顶会ISCA 2026。

一、为那个被忽略的问题

每一轮AI 算力军备竞赛，大家盯着的都是算力——更多的显卡、更大的芯片、更高的峰值算力（TFLOPS）。但鲜少有人追问：这些算力，真的被用上了吗？

当前，AI加速器的实际算力利用率，长期远低于其理论峰值。瓶颈往往不在于芯片本身不够强大，而在于主流的软件调度范式，在运行时无法灵活、高效地“喂饱”硬件。算力买了，却用不满——这正成为AI计算系统中最为隐蔽的性能天花板。

这一核心问题，如今迎来了一份来自学术顶会的参考答案。国产AI芯片公司奕行智能提出的TISA（Tile-level Instruction Set Architecture）Tile级动态调度架构，相关论文已被计算机体系结构领域全球顶级会议ISCA 2026录用。

ISCA（International Symposium on Computer Architecture）是该领域历史最悠久、影响力最强的国际顶会，平均录取率仅约17%，AMD、NVIDIA、Google的标志性架构研究均常发表于此。该论文标志着AI芯片体系结构前沿研究上的又一重要突破。

二、静态调度为什么不够用？

要理解这个突破，先要理解一个藏在芯片设计里的“经典难题”：静态调度（Static Scheduling）。

现代AI 加速器内部由矩阵计算单元（负责密集型矩阵运算）、向量计算单元（负责激活、归一化等操作）和数据搬运单元（DMA）组成。理想情况下，三者应如精密配合的流水线，持续、重叠地满负荷工作。

但现实中，业界主流采用的编译时静态调度方案，在程序运行前就将所有任务的执行顺序一次性、固定地排定，硬件在运行时只能严格按此“剧本”执行，无法应对任何突发状况。这好比工厂厂长提前排定了未来一个月的详尽生产计划，却无法处理设备突发故障、原料临时短缺或工人请假。一旦现实与计划出现偏差，部分流水线就不得不“空转”（产生 “流水线气泡”pipeline bubble ），宝贵的算力被白白浪费。

（由AI生成）

有人或许会问：现代GPU不是具备动态调度能力吗？确实，GPU在线程束（Warp）调度等底层机制上引入了动态性——但这些机制仅能解决CUDA Core内部的指令调度问题，无法协调数据搬运单元TMA、Tensor Core与CUDA Core三者的并发执行。

事实上，为应对“静态调度”的瓶颈，计算架构史上早有成功先例。三十年前，超标量（Superscalar）CPU 通过动态指令调度，在运行时重排指令、填充流水线空闲，最终在性能上击败了全静态调度的VLIW架构。如今，随着大模型兴起与芯片异构程度急剧增加，AI芯片静态调度固有的僵化性，已成为制约算力利用率提升的障碍。奕行智能的论文，正是将动态调度思想引入AI芯片，试图打破这一困局。

三、TISA 动态调度架构：让芯片在运行时自己做决策

TISA（Tile-level Instruction Set Architecture）是奕行智能提出的一套完整的动态调度架构，核心思想是：在编译器和硬件之间建立一种新的"共同语言"，让芯片在运行时能基于实时状态进行智能决策，而非僵化执行预设脚本。

这套动态调度架构由三个相互配合的组件构成——

1.语义保留编译器：不丢失"背景信息"的翻译官

传统编译器在将AI模型“翻译”成芯片指令时，往往会丢弃算子类型、依赖关系等关键语义信息，就像一份菜谱在多次转述后只剩操作步骤，却丢失了"哪道菜、用哪口锅、先后顺序为何"等背景。奕行智能的编译器主动保留并传递这些语义上下文，确保每个计算任务交付给硬件时，都携带完整的“背景说明”，为后续的智能调度提供信息基础。

2.Tile 级指令集 TISA：标准化的"任务说明卡"

TISA 中，每一个计算任务（Tile，即把一个大算子切分成若干可独立调度执行的小块）都附带一张标准化"任务说明卡"，注明：这是什么类型的计算、需要用到哪块硬件、依赖哪些数据结果、是否可以和其他任务同时进行。有了这张说明卡，芯片在运行时无需猜测，就能精准判断哪些任务可以并行、哪些必须等待。

3.冲突感知运行时调度器：芯片的"实时决策核心"

这是整套系统的核心。调度器持续监控所有计算单元（矩阵、向量、DMA）的实时状态，一旦某个单元空闲，立刻从待执行任务中找出满足条件的下一个任务推送过去——而不是等待编译器预设的同步点。

整个决策过程极为迅速，从判断到下发仅需几纳秒，不会给芯片带来额外负担，却能大幅减少各单元"空等"的时间，动态地消除空闲气泡，实现跨单元、跨算子的执行重叠。