近日,美国英伟达(NVIDIA)公司及多家合作机构(包括多所美国国家实验室)联合发表了题为“Platform Architecture for Tight Coupling of High-Performance Computing with Quantum Processors”的论文。该论文提出了一种名为NVQLinK的新型软硬件协同架构,并在10月28日的英伟达GTC大会上正式发布。
NVQLinK将传统的高性能GPU计算与量子处理单元进行了深度集成,以支持量子纠错等关键任务,为实现可扩展的量子计算机提供了可行的工程路径。

@ NVIDIA
量子纠错:实现量子计算的核心
想要构建具有实用价值的量子计算机,就必须实现对大规模量子比特的精确操纵。然而,由于量子比特极其脆弱,任何来自外界的微小噪声或控制失误都会导致量子比特出现错误,从而导致量子计算的失败。
其实,经典计算也面临着出错的问题。不同的是,经典计算比特可以通过简单的复制“备份”以及相互比较来建立一套可靠的纠错机制。但在量子世界,这套方法却完全失效:首先,量子不可克隆原理让我们无法完美复制一个未知量子态;其次,我们一旦试图直接读取量子态来检查错误,就会引发量子态塌缩,从而破坏其叠加状态。
有什么方法可以在不直接读取量子态信息的前提下“抓住”错误呢?量子纠错应运而生,它大致分为编码、探测、解码这三步:
1. 编码:将数据通过精妙的方式,分散存储到多个“物理量子比特”上,即将多个物理量子比特编码为一个逻辑量子比特。
2. 探测:不直接测量存储信息的物理量子比特,而是通过测量与之互动的“辅助比特”来得到与错误有关的信息,这些信息被称为“错误症状(Syndrome)”。
3. 解码:将Syndrome在经典计算机上进行解码分析,最终推断出发生的错误并进行纠正。解码后的Syndrome能告诉人们“发生了什么错误”以及“错误发生在哪里”,但不影响“逻辑量子比特”存储的量子信息。
当前架构无法让量子计算落地?
虽然量子纠错在原理上是可行的,但工程实现上却面临着巨大的挑战:它时刻产生海量的Syndrome信息,这些信息必须被立即处理来保证量子纠错的稳定运行。这就对信息处理器提出了很高的要求:
1. 高频采样:量子处理器必须以极高频率(如每秒百万次)持续测量辅助量子比特产生Syndrome。
2. 实时解码:海量的Syndrome必须立即被发送到一个经典计算单元进行解码。该单元负责运行复杂的“解码算法”,其实质是一个高性能计算任务。
3. 高算力需求:据NVIDIA的论文估算,如果要维持100个逻辑量子比特的稳定正确运行,解码器可能需要高达50PFLOP/s的经典算力,并处理约1Tbps的数据流。
4. 实时前馈:解码器必须在下一个量子纠错周期(微秒量级)开始前,将计算出的纠正指令发回量子控制器来执行物理纠正操作。
而当前几乎所有的量子计算系统架构都无法同时满足上述要求。具体来说,量子控制器与经典GPU超算之间是“松散通讯”的,这种通讯依赖于传统的HTTP网络等,这就导致了两个问题:
1. 高延迟:传统网络的延迟在毫秒量级,而量子纠错环路要求的“反应时间”必须在微秒量级。过高的延迟会导致纠正操作滞后于错误发生的速度,使得逻辑量子比特的正确率下降,最终导致计算失效。
2. 低吞吐:传统网络无法承载量子纠错要求的高达Tbps的连续数据流。解码器处理速度一旦跟不上量子处理器的数据产生速度,就会导致数据积压,量子纠错计算机则将被迫停机。
NVQLink 如何破局?
NVQLinK的核心逻辑在于,它不再将GPU视作外部的“后处理器”,而是将其视为量子处理器运行必不可少的、实时的内禀组件,从而重新定义了量子计算机的边界。具体包括:
1. “紧密耦合”的硬件系统:其中包括能直接执行量子控制和读出的量子系统控制器、一个专用于实时优化量子处理器工作负载的GPU主机,以及基于商用以太网的超低延迟、高带宽通信。
2. 实时调用:NVQLink扩展了NVIDIA的编程模型,此机制允许量子程序在执行中直接调用GPU或CPU上的经典计算任务,实现了量子—经典无缝协作。
3. 异构内存与运行时:支持跨设备内存管理,确保数据在量子控制器与GPU间快速流动。

NVQLinK处理架构主要性能
基于以上设计,团队搭建了一个概念验证平台,实现了高达400Gpbs的GPU-QPU数据吞吐量以及仅3.96微秒的最大往返延迟,这些性能已接近维持100个逻辑量子比特正确运行的要求。这一结果显示,使用成熟的商用网络技术完全可能满足量子纠错严苛的实时性要求,为架构的工程可实现性和可扩展性提供了有力证据。
NVQLinK架构不仅是一项技术进步,更可能对全球量子计算的研发生态产生重要影响。它打破了经典计算与量子控制之间的界限,确立了“经典算力必须深度集成到量子实时控制环路中”的设计思想,这可能成为未来大规模量子计算机事实上的系统架构标准。
同时,凭借CUDA生态的强大根基和商用硬件的易得性,NVIDIA有能力将全球的GPU制造商、应用开发者吸引到其技术路线中,从而主导下一代量子计算平台的开发。

@ NVIDIA
NVQLinK架构的提出,标志着量子计算研究正从“实验室物理演示”转向“高性能计算系统工程”。它清晰地定义了实现容错量子计算所需的经典算力角色,并提供了一套高性能、可扩展的解决方案,加速了量子计算的落地应用。
