diff --git "a/app/zh/blogs/RDMA/RDMA\347\275\221\347\273\234\346\214\207\345\257\274.md" "b/app/zh/blogs/RDMA/RDMA\347\275\221\347\273\234\346\214\207\345\257\274.md" new file mode 100644 index 0000000000000000000000000000000000000000..e7199f3ec683529d71b16c677481bc32fa055102 --- /dev/null +++ "b/app/zh/blogs/RDMA/RDMA\347\275\221\347\273\234\346\214\207\345\257\274.md" @@ -0,0 +1,470 @@ ++++ +title = "RDMA网络指导" +date = '2023-11-07' +category = 'blog' +tags = ['openGauss'] +archives = '2023-11' +author = 'why涛' +summary = "RDMA网络指导" ++++ + + + +# 识别CX4/CX5网卡 + +执行以下命令。 + +``` +lspci |grep Mellanox +``` + +回显如下: + +``` +81:00.0 Ethernet controller: Mellanox Technologies MT27800 Family [ConnectX-5] +81:00.1 Ethernet controller: Mellanox Technologies MT27800 Family [ConnectX-5] +``` + +# 安装MLNX驱动 + +1. 选择下载与OS匹配的驱动包,地址:[https://network.nvidia.com/products/infiniband-drivers/linux/mlnx\_ofed/](https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/)。 + +  + +2. 新建目录,将OS镜像文件挂载至新建目录。OS镜像名称请根据实际情况进行修改。 + + ``` + mkdir -p /mnt/iso + mount openEuler-22.03-LTS-x86_64-dvd.iso /mnt/iso + ``` + +3. 安装过程中需要部分依赖,请配置好OS镜像源,例如本地镜像。 + 1. 打开镜像源文件。 + + ``` + vim /etc/yum.repos.d/openEuler.repo + ``` + + 2. 按“i”进入编辑模式,只保留以下内容。 + + ``` + [OS] + name=OS + baseurl=file:///mnt/iso + enabled=1 + gpgcheck=0 + ``` + + 3. 按“Esc”键,输入**:wq!**,按“Enter”保存并退出编辑。 + 4. 缓存软件包。 + + ``` + yum makecache + ``` + +4. 上传驱动包至服务器并解压。驱动包名称请根据实际情况进行修改。 + + ``` + tar -zxvf MLNX_OFED_LINUX-5.4-3.7.5.0-openeuler22.03-x86_64.tgz + ``` + +5. 进入解压后的驱动包目录,执行以下命令安装驱动。 + + ``` + ./mlnxofedinstall --without-depcheck --without-fw-update --force + ``` + + 如果提示内核不匹配,则执行以下命令。 + + ``` + ./mlnxofedinstall --add-kernel-support + ``` + +6. 设置重启后自动拉起驱动。 + + ``` + chkconfig --add openibd + /etc/init.d/openibd start + chkconfig openibd on + ``` + +7. 安装完成后重启服务器。 + +# 安装检查 + +1. 检查驱动RoCE LAG功能。 + 1. 查看RoCE LAG功能是否启用。 + + ``` + find /sys/ -name roce_lag_enable | xargs cat + ``` + + - 输出为1,则表示开启。 + - 输出为0或无输出,则表示关闭。 + - 预期要关闭才可以,如果没有关闭,请执行[1.b](#li519083722516)。 + + 2. 关闭RoCE LAG功能。 + + ``` + sed '/load_module mlx5_core/a\ files=`find /sys -name roce_lag_enable`;for file in $files;do echo 0 > $file;done' -i /etc/init.d/openibd + ``` + + 3. 执行后重启节点使其生效,重启后再执行[1.a](#li389014811257)查看是否生效。 + + ``` + reboot + ``` + +2. 检查驱动版本。 + + ``` + ofed_info -s + ``` + + 回显驱动版本与[安装MLNX驱动](安装MLNX驱动.md)版本一致则版本无误。 + +3. 加载MST工具。 + + ``` + mst start + ``` + + 回显如下表示加载成功。 + + ``` + Starting MST (Mellanox Software Tools) driver set + Loading MST PCI module - Success + Loading MST PCI configuration module - Success + Create devices + Unloading MST PCI module (unused) - Success + ``` + +4. 查询设备路径和网络端口。 + 1. 查询设备上RoCE和IB卡的设备路径。 + + ``` + mst status + ``` + + 回显如下: + + ``` + MST modules: + ------------ + MST PCI module is not loaded + MST PCI configuration module loaded + + MST devices: + ------------ + /dev/mst/mt4119_pciconf0 - PCI configuration cycles access. + domain:bus:dev.fn=0000:81:00.0 addr.reg=88 data.reg=92 cr_bar.gw_offset=-1 + Chip revision is: 00 + ``` + + 其中,MST devices字段枚举的设备路径/dev/mst/mst\_typeN(N取值:0,1,2,……)代表一张CX卡,mst\_type和CX网卡型号映射关系参考[表1](#table93856218287)。 + + **表 1** mst\_type和CX网卡型号映射关系 + + +
+ | ++ | +
---|---|
+ | ++ | +
+ | ++ | +
+ | ++ | +
+ | ++ | +
+ | ++ | +
---|---|
+ | ++ | +
+ | ++ | +
+ | ++ | +
+ | ++ | +