Bootstrap

TensorFlow-GPU和Keras-GPU安装,显卡、cuda、cudnn版本匹配问题(vs code远程连接服务器)

首先捋清楚流程,TensorFlow-GPU和Keras-GPU安装需要和显卡、cuda、cudnn的版本一一对应,如果一开始就用pip命令下载非常容易出错。

参考Tensorflow GPU、CUDA、cudnn、显卡 中的依赖关系_Rosinante.的博客-CSDN博客

 一、安装cuda

1、查看显卡:终端输入nvidia-smi -q | grep Product

 2、确定NVIDIA显卡的计算能力:去NIVIDA官网查看CUDA GPUs - Compute Capability | NVIDIA Developer

* 实际上这个计算能力是一个中间数据,还需要另外一张表才能找到和cuda的对应关系:

 计算能力8.9只能适配cuda11.8-12.0版本

3、终端输入nvidia-smi,查看服务器支持的cuda版本

支持的最高cuda版本为12.0 

 4、进入cuda官网,选择比支持的最高cuda版本低一点的版本,避免不兼容的问题。本次选择11.8.0版本cuda进行下载,安装cuda

cuda官网:CUDA Toolkit Archive | NVIDIA Developer

 选择好服务器主机的选项,把官网给出的下载命令输入终端进行下载。

出现这个界面,直接选择install会退出命令。

 将安装选项的前两项取消掉(Driver和520.61.05),则可以成功安装。这里指的是不安装cuda安装包中自带的显卡驱动,如果有驱动且版本对的上就可以取消。

安装成功!

用ls -l /usr/local | grep cuda或nvcc -V查看有哪些cuda版本:

二、安装cuDNN

tensorflow-gpu, cudnn, cuda的版本对应关系

参考:Build from source  |  TensorFlow

选择cuda11.8+cudnn8.6+python3.8+tensorflow-2.12.0

上官网:cuDNN Archive | NVIDIA Developer

 选择cudnn8.6.0版本,下载服务器主机对应的压缩包,我选的第二个Tar。

按照官网的指示:Installation Guide - NVIDIA Docs 

 执行以下命令,检查cudnn的安装:

cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

 如果出现以下输出则安装成功。

三、安装tensorflow-gpu

1、在终端输入以下命令创建conda环境
创建Python版本为3.8的conda环境

conda create -n AMR python=3.8

激活环境

conda activate AMR

2. 安装tensorflow-gpu

pip install tensorflow-gpu==2.12.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

这个版本有对应的Keras不需要另外再下。

运行测试代码:

from tensorflow.python.client import device_lib
local_device_protos = device_lib.list_local_devices()
[print(x) for x in local_device_protos if x.device_type == 'GPU']

如果出现GPU信息则安装完成!

其他参考链接:

pytorch、显卡、显卡驱动、cuda版本是如何对应的 - 简书

;