M60显卡安装部署说明

时间:2024-02-19 21:32:02

M60显卡安装部署说明

1      概述

本文档旨在为GPU项目在部署或者简单演示,提供部署详细指导。包括硬件安装、M60 License服务器部署及注意事项、显卡驱动安装与更新

2      M60环境安装部署

2.1     M60显卡的安装

2.1.1     M60显卡的物理安装

M60显卡安装于RH2288H V3服务器,需要准备好Riser卡和显卡电源延长线(与K系列显卡一样,M60显卡是通过安装在Riser卡上,再接入服务器主板上,由主板或Riser为显卡提供供电。显卡电源延长线有时也被称为显卡电源线。)

M60显卡安装于E9000 CH220V3,将M60显卡安装于主板的扩展盒中,不需要Riser卡,需要显卡电源延长线。

兼容服务器参考:

http://www.nvidia.com/object/grid-certified-servers.html

注意:

1)每个服务器最多可接入两块M60显卡,每块显卡 峰值功率 300W,且需要专用的电源线为GPU供电,更多服务器配置信息及注意事项请参考:华为服务器兼容性助手

http://support.huawei.com/onlinetoolsweb/ftca/

2)BIOS配置:

在BIOS菜单“Advanced--Misc Configuration”中“Pci 64-bit Decode”的配置应为Enabled。

作用:设置pci 64-bit Decode功能,启用本功能后,外接设备被分配的地址空间可以大于4GB。

说明:出厂默认为Enabled,请确认配置为 Enabled

3)RH2288H V3的Riser卡购件中,包括了显卡的显卡电源延长线。而E9000 CH220V3中,需要单独采购显卡的电源延长线。具体可以见下文中的附件。

2.1.2     附1:RH2288H V3参考配置

序号

部件编码

型号

描述

总数

1

RH2288H V3

RH2288H V3

 

 

1.1

基本配置

基本配置

 

 

 

02310YJA

BC1M02HGSA

RH2288H V3 (8*2.5英寸硬盘机箱)H22H-03

1

 

02310YKC

BC1M01FGEA

SM210板载网卡-4xGE电口(Broadcom 5719)-RJ45

1

 

02310YKP

BC1M03FANA

8056 Plus风扇组件

4

 

02311SSV

BC1M26RISE

PCIe提升卡-2槽位(x16,x16)-GPU专用-适用RH2288H V3

1

 

02310QWX

EN3MCACC

750W白金交流电源模块

2

1.2

Haswell EP CPU

Haswell EP CPU

 

 

 

02311CDT

BC1M11CPU

英特尔至强E5-2667 v3(3.2GHz/8-core/20MB/135W)处理器(带散热器)

2

1.3

DDR4 内存

DDR4 内存

 

 

 

06200213

N24DDR402

DDR4 RDIMM内存-16GB-2400MT/s-2Rank(1G*8bit)-1.2V-ECC

5

1.4

硬盘(带拉手条)

硬盘(带拉手条)

 

 

 

02311HAK

N300S1210W2

通用硬盘-300GB-SAS 12Gb/s-10K rpm-128MB及以上-2.5英寸(2.5英寸托架)

2

1.5

RAID卡及配件

RAID卡及配件

 

 

 

02310YLY

BC1M03ESMN

SR130(LSI3008) SAS/SATA RAID卡-RAID0,1,1E,10-不支持带外管理-12Gb/s-no Cache-适用RH2288 V3/RH2288H V3的8&24硬盘机箱

1

1.6

PCIe卡

PCIe卡

 

 

 

06320094

63K2WE8Y

Tesla M60

1

 

05052582

RESECZSF

GRID vWS Perpetual License, SUMS 1st year

4

2.1.3     附2:E9000 CH220 V3参考配置

序号

部件编码

型号

描述

总数

1

E9000

E9000

 

 

1.1

刀片基本配置

刀片基本配置

 

 

1.1.1

刀片主控板

刀片主控板

 

 

 

03056137

IT11GRUB05

4*X8+2*X16 PCIe资源扩展单元-CH220 V3

1

1.1.2

Haswell EP CPU

Haswell EP CPU

 

 

 

41020500

EHSE52667

英特尔至强E5-2667 v3(3.2GHz/8-core/20MB/135W)处理器

2

1.1.3

DDR4 内存

DDR4 内存

 

 

 

06200225

N24DDR404

DDR4 RDIMM内存-16GB-2400MT/s-2Rank(1G*8bit)-1.2V-ECC

5

1.1.4

硬盘(带拉手条)

硬盘(带拉手条)

 

 

 

02311HAK

N300S1210W2

通用硬盘-300GB-SAS 12Gb/s-10K rpm-128MB及以上-2.5英寸(2.5英寸托架)

2

1.1.5

RAID卡及其它配件

RAID卡及其它配件

 

 

03021FTX

BC0MESMCE600

RU120(LSI2308) SAS/SATA RAID卡-RAID0,1,1E,10-6Gb/s-no Cache

1

1.1.6

网络扣卡

网络扣卡

 

 

 

03021SMF

IT1DMGEA0100

MZ110-4*GE端口扣卡,PCIE 2.0 X4

1

1.1.7

PCIe卡

PCIe卡

 

 

 

06320094

63K2WE8Y

Tesla M60

1

 

05052582

RESECZSF

GRID vWS Perpetual License, SUMS 1st year

1

 

04151046

QQYNTZEV

电源电缆-0.55m-(H2X4(4.2))-(3*18UL1007红+5*18UL1007黑)-(H2X4(4.2)-I)-GPU电源线

2

2.1.4     附3:附图:显卡电源线连接示意图

说明:以下仅以RH2288H V3为例,说明显卡的电源延长线如何连接,最后将Riser卡直接接在主板上。

图1_RH2288HV3_M60显卡完成电源连线后,效果图如下:

20180320202007440001.jpg

原则:白色接口对白色接口,黑对黑。

图2_M60显卡逻辑图如下:

当是RH2288H V3时,图中显卡的电源线连接至Riser卡的电源接口。

当是E9000 CH220 V3时,图中显卡的电源线连接至主板上电源接口。

 

20180320202008220002.png

图3_M60显卡拆箱硬件图,自带1分2的电源线(因为显卡自带的1分2的电源线很短,所以需要显卡电源延长线),效果图如下:

20180320202008691003.jpg

图4_RH2288HV3_需要购买的Riser卡(带有显卡电源线延长线),如果是E9000 CH220 V3,则需要购买显卡的电源线延长线

20180320202009215004.jpg

2.2     M60驱动安装

切换图形模式:

M60区分为科学计算模式和图形模式,M60默认为计算模式,需要设置为图形模式。安装主机驱动前,需要切换到图形模式。

具体操作步骤,参考FusionCloud桌面云解决方案文档中“安装与调测”->“特性指南”->”F112_高性能图形处理(GPU硬件虚拟化)”->”创建M60 GPU虚拟机”中的“切换图形模式”。

驱动安装:

M60显卡的使用,需要在服务器和虚拟机上,安装同一套驱动程序。

例如:(以下仅为举例,请以实际版本为准)NVIDIA-GRID-UVP-367.64-369.71

需要在服务器安装:NVIDIA-vGPU-uvp-210.0-367.64.x86_64.rpm

为虚拟机绑定显卡,然后虚拟机上安装对应 OS下的驱动:例如369.71_grid_win8_win7_server2012R2_server2008R2_64bit_international.exe

在服务器上,安装或是卸载显卡驱动后,请重启服务器。

安装成功的标准:ssh登录服务器:以root权限,执行nvidia-smi,返回gpu的使用情况,无报错。如下图所示:

20180320202010089005.png

具体操作步骤,参考FusionCloud桌面云解决方案文档中“安装与调测”->“特性指南”->”F112_高性能图形处理(GPU硬件虚拟化)”->”创建M60 GPU虚拟机”中的“安装主机驱动”。

 

 

3      M60 License服务安装部署

3.1     GRID License授权的工作原理

下图给出了M60 GRID License 授权的概要:

20180320202010891006.png

GRID License 授权架构

 通过上图我们可以看到,GRID分为三个版本(虚拟工作站vWS、虚拟PC和虚拟应用vApps),当带有VGPU的虚拟机运行的时候会请求License服务器中的License授权,根据License服务器中的GRID License版本,加载不同的VGPU驱动(普通驱动和专业卡驱动)。我们可以看到虚拟PC和虚拟应用的License加载的都是普通的显示驱动。

整个License获取和释放的过程发生在如下两个阶段:

License获取阶段:

虚拟机在启动的时候通过访问License服务器的地址+端口7070发起License的请求,当正常获取License后加载GRID驱动。

 License释放阶段:

当关闭虚拟机的时候,之前虚拟机获得的License会自动释放,还回到License服务器中。

需要明确的一点:当虚拟机处于关闭状态的时候是不占用任何的GRID License的。此外如果客户使用的是K1,K2的GPU是不需要License授权的。只有在使用 Tesla M60 GPU 时,GRID 虚拟工作站或虚拟 PC 的授权版本须经由网络从NVIDIA GRID  License 服务器获取到 license,激活使用。

 

3.2     GRID License服务器部署流程

20180320202011490007.png

3.3     License server平台支持规格

3.3.1     虚拟机规格

硬件配置

 

 

支持操作系统

最低配置

CPU

2U

Windows:

Windows 7 32/64bit、

Windows8/8.1,32/64bit、

Windows10 64bit、

Windows server 2008R2

Linux:

Red Hat Enterprise Linux 7.1 64bit、

CentOS 7.1 64bit

说明:

目前仅支持英文Windows、Linux操作系统。

内存

4G

          目前Grid版本在演进过程中,License的文件格式也在变更,建议部署时查看对应的License发布文档来确认对应的系统要求。如最新的License,windows系统只支持Win10 64bit和server2016,同时需要安装.Net Framework4.0 以上版本等。

3.3.2     虚拟机创建

可直接通过FC进行创建,确保硬件配置能够满足上面的规格要求。

3.3.3     安装操作系统

根据用户实际使用需求安装所需的操作系统,平台所支持的系统类型,参考章节(虚拟机规格)。

3.3.4     注意事项(重要)

Ø  具有16 GB内存的4+ CPU内核的高端配置,适合处理多达15万个许可客户端。主机平台必须运行支持的Windows操作系统。

Ø  NVIDIA License Server 尽量安装在英文版操作系统(或使用英文版的浏览器)中,不然会产生与web 浏览器不兼容的情况

Ø  目前不支持在Linux控制台模式下安装。 License服务器安装程序必须在图形桌面环境中运行。

Ø  平台必须具有固定(不变)IP地址。平台必须至少有一个不变的以太网MAC地址,以便在注册服务器和在NVIDIA许可门户网站中生成许可证时用作唯一标识符。

Ø  平台的日期/时间必须准确设置。

3.4     License server软件包获取

3.4.1     进入官网

https://www.nvidia.com/en-us/design-visualization/solutions/virtualization/

点击下载软件链接:Software Download

20180320202012964008.png

3.4.2     跳转至登录界面

如果之前有过NVIDIA帐号,请在注册界面点击下方的 cancel;

如果从未申请过NVIDIA帐号,请先注册,然后登录注册邮箱激活你的帐号。

3.4.3     登录NVIDIA账号

如果已存在NVIDIA账号,在注册界面点击下方cancel后,登录NVIDIA账号,

或直接输入:https://nvid.nvidia.com/dashboard/ 登录NVIDIA账号

20180320202012992009.png

3.4.4     获取License 软件安装包

依次点击: Software & Services  à Product Information àNVIDIA Grid,进入下载页面

20180320202013552010.png

点击:License Manager for windows/License Manager for Linux 链接,下载所需软件包

20180320202013525011.png

3.4.5     License软件包介绍

通过上述步骤,可以下载到License Manager压缩包:

NVIDIA-ls-windows-XXXX.XX-XXXX.zip

NVIDIA-ls-linux- XXXX.XX-XXXX.tgz

Windows安装包,解压后可获取:

setup.exe   :用于安装于Windows 虚拟机上

GRID License Server User Guide.pdf   :Windows License 服务器用户指南

GRID License Server Release Notes.pdf  :Windows License服务器版本说明

Linux安装包,解压后可获取:

setup.bin  :用于安装于Linux虚拟机上

GRID License Server User Guide.pdf   :Linux License 服务器用户指南

GRID License Server Release Notes.pdf  :Linux License服务器版本说明

3.4.6     获取产品激活密钥(PAK)

获取方法一:

从NVIDIA销售处,下单并处理订单后,您会收到包含产品激活密钥的欢迎电子邮件。此邮件包含产品激活密钥(PAK)
以下是欢迎电子邮件的示例:

20180320202014070012.png

获取方法二:

如果下单后只拿到许可密钥,可以通过许可密钥为您的账户兑换产品激活密钥(PAK),

依次点击:Software & Services  à Redeem Product Activation Keys,进入Redeem Product Activation Keys页面,在下方表单中输入许可密钥进行兑换:

20180320202015657013.png

详细请参阅GRID-Quick-Start-Guide-August-2016》

3.5     Windows 7平台License server安装

3.5.1     安装Java运行环境及要求

从www.oracle.com下载当前的Java 32位安装包,并安装在win7_32bit虚拟机上

20180320202015193014.png

Ø  GRID许可证服务器需要Java运行时环境(JRE)版本1.7或更高版本。在Windows 32位和64位平台上,GRID许可证服务器需要安装一个32位JRE。

Ø  许可证服务器基于WEB浏览器的管理界面支持以下浏览器:Mozilla Firefox 17或更高版本、Google Chrome版本27或更高版本、IE9或更高版本。

3.5.2     License server 安装

在win7_license服务器上,解压获取到的License软件安装包,NVIDIA-ls-windows-XXXX.XX-XXXX.zip包,运行setup.exe

安装步骤1

选择: “I accept the terms of the license Agreement” à点击 Next;

20180320202016898015.png

安装步骤2

选择: “I accept the terms of the license Agreement” à点击 Next;

20180320202017576016.png

安装步骤3

可自定义安装路径,这里选择默认,点击 Next;

20180320202017615017.png

安装步骤4

默认勾选: “License server(port 7070)”,需要勾选上“Management interface (port 8080)” à点击 Next;

20180320202018978018.png

安装步骤5

点击“Install”

20180320202019279019.png

安装步骤6

安装完成,点击”Done”,完成安装。

20180320202019176020.png

验证安装

验证许可证服务器是否正常运行,在win7_license服务器主机上打开Web浏览器并连接到http:// localhost:8080 / licserver,显示License管理界面。

如未显示管理界面,请参阅GRID License Server User Guide》,第4章中的故障排除。

20180320202020149021.png

3.5.3     获取License文件

步骤1:获取MAC地址

在License管理界面,打开License Server Configuration,通过Server host ID,获取到MAC地址,如下图所示:

20180320202020415022.png

步骤2:注册License服务

在有公网的办公机上,打开NVIDIA官网登录到”NVIDIA SOFTWARE LICENSING CENTER”页面。

依次点击: Grid Licensing  à Register License Serverà,进入Register License Server页面,将获取到的MAC地址,输入“MAC address”中,并点击“Create”,如下图所示:

20180320202021095023.png

创建完成后,需要进入分配license页面。

注意:如果没有执行本步骤,会导致导出的BIN文件中,没有真实可用的license信息。

20180320202022924024.jpg

然后点击Map Add-Ons,会显示目前账号一共可以分配的用户数。

20180320202022723025.png

在Qty to Add框中填入需要分配的用户数量,然后点击Map Add-Ons就完成了分配。分配的数量可以通过重复上述步骤进行添加和删除,但是测试license不允许调低分配的用户数。

步骤3:下载License文件

创建完后,生成许可证*.bin文件,并下载保存到win7_license服务器上。

3.5.4     加载License文件

在win7_License服务器上,使用IE打开http://localhost:8080/licserver , 显示License管理界面,

从左侧菜单,依次点击:License ServeràLicense Management,使用License服务器配置菜单导入,刚下载保存好的许可证*.bin文件,并点击Upload。如下图所示:

20180320202023681026.png

20180320202024711027.png

至此,win7_License服务器安装完成。

License服务器详细配置请参考GRID License Server User Guide》,章节3(Operation)。

3.6     Grid Virtual Workstation with Virtual GPU License配置

3.6.1     Windows虚拟机配置License

在Windows虚拟机桌面 右键à打开”NVIDIA控制面板“点击”Licensing“àManage License任务项中设置,如下所示:

20180320202024682028.png

License 服务器字段可输入域名或者IP,端口号默认是7070。成功设置后点击”Apply”按钮,重启生效。

看不到Manage License任务项的原因有:

(1)当前vGPU、GPU不需要license,或者驱动不支持license;

(2)Licensing控件被隐藏,参见GRID-Licensing-Guide》的 4.3 节。

3.6.2     Linux虚拟机配置License

Linux 上的License设置,须编辑配置文件,Linux版本的驱动中提供了配套的配置文件模板,详细操作方法见GRID-Licensing-Guide》的2.3节。

3.7     Grid Virtual Workstation with Pass-through GPU License配置

GRID Virtual Workstation在Tesla GPU上以GPU直通模式运行,可用于Windows和Linux VM。 虚拟工作站需要GRID Virtual Workstation版本,并提供以下功能:

(1)最多4个4k分辨率的虚拟显示器(未经许可的Tesla GPU支持单个虚拟显示头,最大分辨率为2560x1600)。

(2)工作站特定的图形功能和加速度。

(3)专业应用的认证驱动程序。

3.7.1     Windows客户机配置License

在Windows虚拟机桌面 右键à打开”NVIDIA控制面板“点击”Licensing“àManage License任务项中设置à在”License Edtion:”选择 ”GRID Virtual Workstation“,如下图所示:

20180320202025901029.png

License 服务器字段可输入域名或者IP,端口号默认是7070。成功设置后点击”Apply”按钮,重启生效。

3.7.2     Linux客户机配置License

Linux 上的License设置,须编辑配置文件。Linux版本的驱动中提供了配套的配置文件模板,详细操作方法见GRID Licensing Guide》的3.3节

 

4      NVIDIA显卡驱动更新

显卡驱动更新,无论是在主机服务器或是虚拟机中,都是卸载旧版本,重启,安装新版本的过程。

注意:升级过程中会要求重启服务器和虚拟机,请事先知会客户影响。

4.1     更新显卡驱动流程

对于显卡硬件虚拟化应用场景,需要按顺序执行如下步骤。

对于显卡直通的应用场景,只需要更新虚拟机里面的驱动版本即可。

一:准备工作:

1、                升级过程中会要求重启服务器和虚拟机,请事先知会客户影响。先将待升级的VM所在的服务器 上的虚拟机关机。

2、                将待升级的rpm包,拷至目的服务器上,建议操作为/var目录下。

说明:如果以root用户登录或是拷贝时,提示无权限,可以暂时先打开root用户的登录权限,执行完后再关闭。

3、                更新用户虚拟机,需要有administrators群组权限的帐号,请事先准备好。

4、                先行准备好服务器的相关信息(包括BMC 、gandalf 、root等相关帐号和密码信息)

5、                登录FC和FA的Portal界面,查看告警,并确保当前环境正常。

二:在服务器上,更新显卡驱动:

1.    先以root用户登录需要升级的服务器。并执行TMOUT=0 ,关闭ssh自动退出功能。(后续每一次登录都需要执行TMOUT=0)

相关命令:TMOUT=0

相关截图:

20180320202026538030.png

2.    检查服务器上是否已安装有NVIDIA的驱动。

相关命令:rpm -qa|grep NV   //rpm查询命令,查找出NV开头的包。

相关截图:

20180320202026405031.png

说明:一般情况下,NVIDIA的rpm安装的包 文件名称与rpm查出来的软件名称并不相同。

3.    对比需要在服务器上安装rpm包驱动,如果当前版本与目的版本不同,则需要先卸载旧版本。rpm –e 后面接步骤1中查出的版本号

相关命令:rpm -e NVIDIA-vGPU-kepler-uvp-210.0-352.54

相关截图:

20180320202027484032.jpg

4.    重启服务器

相关命令:reboot

相关截图:

20180320202027686033.png

 

5.    以root用户登录,至文件目录下,安装新的rpm包。

相关命令:rpm -ivh /var/ NVIDIA-vGPU-kepler-uvp-210.0-361.40.x86_64.rpm

相关截图(版本对应安装实际版本):

20180320202028413034.jpg

说明:如上提示信息为正常提示,已与UVP同事确认无影响。

6.    重启服务器。请参考第5步骤的命令和截图

7.    以root用户登录服务器,查询是否已安装成功。请参考2步骤中的命令及截图。

相关命令为:rpm -qa|grep NV

相关截图(版本对应安装实际版本):

20180320202029312035.png

8.    以root用户登录服务器,查询显卡是否正常。

相关命令:nvidia-smi

相关截图:

20180320202029558036.png说明:截图内容无需完全一致,如果有正常的显卡信息输出即可。

至此,完成了服务器上的显卡驱动程序的更新。

三:在虚拟机上,更新显卡驱动:

1、  前期准备:为了防止更新显卡驱动的过程中,出现无法登录的情况。请先准备如下两个操作:(2个操作步骤只需要执行一个,请注意安全风险,升级完成后,请回退如下配置)

a)    请先打开 RDP远程登录、确认关闭了VM内的防火墙,以便可以RDP方式登录。

b)   安装tightvnc软件。

2、  在控制面板中,找到当前的NVIDIA驱动程序的版本号,如果不是目标版本,请先卸载。按如下顺序卸载即可,在最后的驱动程序卸载完成后,请重启虚拟机。

20180320202030613037.png

3、  安装新的驱动程序。确认自己的OS位数,执行对应的安装包。建议默认方式安装(例如:362.13_grid_win8_win7_64bit_english.exe,具体的包名,请以一线为准)

4、  安装完成后,请重启虚拟机。

5、  重启完成后,请登录VM,检查:

a)    HDP方式登录后,可以为全屏窗口。

b)   在虚拟机的设备管理器中,可以查找到目标显卡。正常工作状态。

20180320202030798038.png

6、  回退步骤1中的准备工作,不修改用户虚拟机的配置。

4.2     更新后验证

请一线根据自己的业务情况,验证是否可以正常可用。

4.3     关于回退

整个更新过程,都是卸载,重新安装的过程。如果需要回退,请使用之前准备的更新前的安装包。卸载当前包,重启,安装目标包,重启。流程相同。

转载地址: https://forum.huawei.com/enterprise/zh/thread-442311.html