使用CUDA加速CPU程序的步骤:
1.通过性能分析工具(如vs)找到CPU程序最耗时的多个地方,并确定耗时程序的入口函数
2.将CPU函数进行清理
1.将循环部分的代码找出来。
2.将函数内所用到的数据从C++类结构变成C的结构体。
3.标准化输入输出,保证其为C结构,并与原程序的数据进行无缝对接。
4.将循环内部的函数也做相同处理,最终得到C版本的且输入输出与原程序对接的CPU程序。
5.保证清理后的CPU程序正常正确运行。
3.将清理后的CPU函数变为cuda核函数
1.申请设备内存
2.拷贝主机内存到设备内存
3.核函数计算
4.拷贝设备内存回主机内存
5.释放资源
4.优化cuda核函数
5.性能分析
原文:https://blog.csdn.net/fb_help/article/details/82049895