CUDA零内存拷贝疑问考证

今天思考了一下CUDA零内存拷贝的问题，感觉在即将设计的程序中会派上用场，于是就查了一下相关信息。

以下是一些有帮助的链接：

经过调查发现，零拷贝技术适用于集中计算、较少内存拷贝次数的问题。比如向量点积、求和运算等问题。

既然零拷贝技术是在CPU上开辟内存空间，GPU可以直接访问该空间，那么我就产生了一个疑问：“如果CPU上开辟的空间大于GPU的可用空间的时候，GPU的内存会不会发生内存溢出？”

具体一点就是：

假设GPU显存1G，我使用了999M，空闲的显存只有1M，但是在CPU上开辟的空间有10M，需要GPU去执行运算，那么这个时候GPU上的显存会溢出吗？

经过一些调查，得出的结论是不会溢出。

在CSDN论坛上有人提问：“在影射的过程中，是不是GPU显卡的内存要足够大呢？不用考虑吗？”

有人回答道：“是可以申请大小超过GPU显存的内存的，只要Host端的内存足够大就可以~”，

还有“可以写个程序自己实现下，用上面提到过的API去申请一个超过GPU显存的内存空间，然后得到Device端的指针，进行操作，本人GPU的显存为6GB，内存32GB，实验中申请了16GB的空间，是可以申请下来的，而且执行Kernel操作的结果也是正确的”。

至此这个问题就得到了解答。由此得出的结论就是零拷贝技术是在HOST上开辟完整内存，而从GPU读取并操作的时候是GPU调节的，并不是整块读取。

P.S. 有人说存在这种问题：“zerocopy好像不支持复杂运算，make_float4（）都不支持，我一用就出现错误”，在以后的运用中还有待验证，不知道在之后的CUDA版本中会不会出现一样的问题。

秒客网