GPU通用计算API的变迁和趋势

在高性能计算、机器学习等现代应用领域中，GPU（Graphics Processing Unit）是占统治地位的计算引擎。GPU从早期的固化逻辑实现、到可编程、到今天的通用计算架构（GPGPU），其应用接口（API）随着功能和通用性的提升而变得越来越灵活和高效。

1. 图形渲染：DirectX 和 OpenGL

早期的GPU有浑名显卡也不冤枉。从软件角度来说，其逻辑架构基本上就是图形的三角形坐标变换、顶点照明、像素着色等一系列功能。因为逻辑固化、功能单纯，应用程序通过驱动接口可以直接执行这些功能，主要API就是较早版本的OpenGL和DirectX。

OpenGL源于曾经非常风光的SGI公司，然后演进成支持跨平台图形的工业标准，版本也从最初的1.x，到2.0，3.x，到今天的4.5【1】。目前Khronos Group（OpenGL标准化组织）正在推进OpenGL5.0。而DirectX是微软的windows平台上专用API。DirectX图形API最初的几个版本基本上是奋力直追OpenGL的features，直到DirectX 9.3c，微软才完成了实质上的超越。DirectX 9.3在features上大致相当于OpenGL3.3。（注意，OpenGL分为台式、嵌入式两个不同的profile，其版本之间的一一对应关系不甚明显）

随着图形算法的改进和对高质清晰画面的追求，GPU需要越来越强大的灵活性来支持纹理、材料属性、和精细度渲染，固化的逻辑显然无法跟得上这些需求。GPU实现真正意义上的可编程是支持高层渲染语言（shading language）。对应于OpenGL的高层语言是GL Shading Language（简称GLSL），对应于DirectX的高层语言是High Level Shading Language （或HLSL）。GPU的可编程流水线架构如下：

由上图可见，在GPU的逻辑流水线上，只有两个阶段是可编程的，其它的仍然是固化的硬件支持。其中，一个可编程的stage是三角形顶点处理器（vertex processor），用户可以根据自己的需求编写适当的坐标变换、光线照明等复杂程序。另一个是像素处理器（fragment processor），实现更细节的渲染和纹理映射等。两个处理器对应的GPU程序分别叫做vertex shader 和fragment shader。在DirectX中，fragment shader叫做pixel shader。

不同的GPU厂商对上述的可编程逻辑单元有不同的的硬件实现。比如，英伟达（Nvidia）早期的GeForce 系列，ARM Mali GPU都采取了离散架构，即vertex processor和fragment processor是独立的物理处理单元。英伟达直到GeForce 8 系列的Tesla微架构，才改成了归一化的GPU架构【2】，即统一的处理器可以同时执行vertex shader 和fragment shader。ARM Mali Midgard和最近的Bifrost微架构也采用了归一化的实现【3】。不过，高通（Qualcomm)的Adreno GPU一开始就是归一化的微架构。

2. 通用计算：DirectX、OpenGL／OpenCL和Renderscript

在DirectX9.3 实现超越之后，微软在GPU API方面一直处于领跑地位。只是DirectX 10时运不济，几乎随着Windows Vista灰飞烟灭。但之后的DirectX 11改头换面，并率先推出了细分曲面（tessellation)和通用计算（compute）API，实现了从GPU 到GPGPU（general-purpose GPU）的飞跃【4】。

虽然从API的角度，通用计算处理器似乎是一个独立的单元，但一般的GPU物理实现都是重复利用流水线上的可编程单元（归一化的处理器），在执行通用计算GPU程序（叫做compute shader）时忽略其它的硬件功能。Vertex shader，fragment shader，和compute shader采用归一化的编程模型。

因为DirectX是微软的专用API，OpenGL社区也不甘落后，很快就推出相应的OpenGL通用计算和细分曲面功能。为了有别于DirectX，OpenGL的tessellation 程序叫做tessellation control shader和tessellation evaluation shader，分别对应于DirectX的Hull shader和Domain shader。OpenGL ES（嵌入式系统）在3.1版本引进了通用计算，但直到去年的3.2版本才正式加入tessellation功能（在此之前由Google的扩展包得以维系）。

真正跨平台的通用计算API是Khronos的OpenCL1.x 和随后的OpenCL2.x。感觉比较别扭的是，同一个Khronos Group标准化组织，却同时有两套通用计算API。简单的理解是，OpenCL是为大计算准备的（heavy-duty compute），比如在GPU上的大规模高性能科学计算。OpenGL compute是轻量级的，适合于简单的图形、图像处理等任务。例如，在模拟粒子系统时，用OpenGL通用计算API来计算速度、位置、势能等，再快速切换到渲染模式，把整个粒子系统显示出来。相比之下，OpenCL需要比较复杂的set-up，而且和图形渲染之间的相互切换（inter-op）也有较高的执行开销。

秒客网

GPU通用计算API的变迁和趋势

相关文章