Linux服务器安装pytorch的超详细流程

基本的环境

首先了解自己服务器的操作系统内核版本等信息：
1. 查看自己操作系统的版本信息：cat /etc/issue 或者是 cat /etc/lsb-release 等命令
2. 查看服务器显卡信息：
  1. lspci | grep -i nvidia 查看全部显卡信息。
  2. nvidia-smi 如果已经安装了对应的显卡驱动的话可以采用这个命令。
  3. cat /proc/driver/nvidia/version 查看安装的显卡的驱动信息。
  显卡驱动的安装需要根据操作系统的版本进行选择。

多版本的gcc 和g++

gcc和g++是很多驱动安装过程中需要使用的编译器，很多时候由于编译器版本的不对应会使得安装出现很多莫民奇妙的错误，根据经验，现在的CUDA 10.1的话，也可以使用的是4.8，因此最好选择4.8-5.4之间的版本比较好，兼容一点。对于多版本的gcc和g++的安装进行详细的讲解：

查看自己的gcc和g++版本：gcc --version以及 g++ --version
安装新的或者安装多版本的gcc以及g++的流程：
1. sudo add-apt-repository ppa:ubuntu-toolchain-r/test 首先加入一些更新的仓库,以便于更新。
2. sudo apt-get update 以及sudo apt get update 对需要的软件包等进行必要的更新。
3. sudo apt-get install gcc-4.9 以及sudo apt-get install g++-4.9用于安装对应版本的gcc以及g++。注意自己需要的版本自己修改。
4. sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-4.9 20
  sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-4.9 20
  这两行用于将刚安装的gcc和g++类似于注册的操作加入到bin中，用于可选择操作。也就是说通过这个操作不断向系统注册新的gcc和g++版本。
5. update-alternatives --config gcc
  update-alternatives --config g++用于对版本进行选择。进入之后根据提示完成选择即可。如果权限不够加 sudo。
6. 一般我们是使用4.8-5.4之间的版本编译器即可。如果还是出现错误的话，首选的操作应该是卸载显卡驱动重装显卡驱动。这个方法的成功率最高。

驱动安装

如果需要安装显卡的话，需要先将旧版本的显卡驱动卸载：
sudo apt-get remove --purge nvidia*
此外，安装之前，需要先禁用一个东西。nouveau。
sudo vim /etc/modprobe.d/blacklist.conf
在文件的最后面加入以下的内容:

复制代码
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

检查操作是否成功：lsmod | grep nouveau没显示即成功。

显卡驱动的安装比较简单，直接到官网进行对应的驱动的下载。点我下载

注意在驱动的下载那里，操作系统的选择直接选择LInux-xbit即可，这个是可以搜索得到的，如果选择ubuntu16等搜不到。亲测直接搜索Linux 64-bit安装有效可用！

将下载好的显卡驱动上传到服务器进行安装。

sudo ./NVIDIA-Linux-x86_64-430.34.run 采用该命令进行驱动的安装。安装完成之后，可以采用以下命令进行检查：
nvidia-smi

CUDA安装以及cudnn安装

CUDA是GPU进行计算的运算平台，根据需要安装对应版本的cuda。

这里需要注意的是，最好在安装显卡驱动的时候选择对应的 cuda版本，然后在安装cuda的时候的版本保持一致，虽然高版本的驱动可以兼容低版本的cuda。

下载对应版本的cuda。cuda各个版本下载点我哦。由于这个网站的入口比较难找，大家最好保存起来哦。

这是我自己下载的版本。将下载的版本也上传到服务器上进行安装。
sudo sh cuda_10.0.130_410.48_linux.run 安装方式可以百度一哈。
安装过程中的选择项：
1. nvidia accelerated graphics driver ，n 。因为我们已经安装过。
2. 其他的都选yes。
3. 软连接的建立。注意还有一个选项是软连接的建立，会在/usr/local/下面建立一个软连接cuda该软连接连接到安装的真正的cuda-10.0的地址。软连接的建立可以用于多个版本的cuda的管理。
  
  如图所示的，黄色的cuda是一个软连接，红色的是多个安装好的CUDA修改软连接就可以修改cuda的版本。
  
  这是安装完成之后的内容。安装完成之后，采用

nvcc -V对安装进行检查。

如果提示没有找到对应的命令的话，需要进行环境变量的配置。这里我们按照假设建立的cuda的软连接的方式进行配置:
sudo vim ~/.bashrc加入以下的内容：

复制代码
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda

之后再使用nvidia-smi

多版本的CUDA管理。其实很简单，就是那个软连接的管理，例如我需要其他版本的cuda，由于我的环境比变量直接指向的是一个软连接，因此我可以删除旧的软连接再建立新的软连接的方式来实现不同版本的cuda的切换。

复制代码
sudo rm -rf cuda # 删除旧版本的软连接
sudo ln -s /usr/local/cuda-9.1 /usr/local/cuda  # 建立新版本的软连接，前面的路径是需要的版本的cuda的安装路径。

安装对应的cudnn。根据cuda版本选择对应的cudnn进行安装。点我进行下载

进去之后花花绿绿的什么鬼一大堆，如果采用安装的方式的话，需要每个版本的操作系统需要下载3个deb文件，就很烦。因此我们直接下载箭头对应的版本，改文件的后缀是cudnn-10.0-linux-x64-v7.3.0.29.solitairetheme8这种也是也是tgz。将下载来的文件进行解压即可。

复制代码
cp  cudnn-10.0-linux-x64-v7.3.0.29.solitairetheme8 cudnn-10.0-linux-x64-v7.3.0.29.tgz # 换后缀
tar -xvf cudnn-8.0-linux-x64-v5.1.tgz  # 解压

解压之后得到一个 cuda文件夹。采用如下的操作进行cudnn的安装。(这时候的cudnn要直接安装到对应的版本的cuda的真实的安装路径中。这样建立软连接的时候才会读到cudnn文件)

复制代码
sudo cp cuda/include/cudnn.h    /usr/local/cuda-xx.x/include # 填写对应的版本的cuda路径
sudo cp cuda/lib64/libcudnn*    /usr/local/cuda-xx.x/lib64   # 填写对应的版本的cuda路径
sudo chmod a+r /usr/local/cuda-xx.xx/include/cudnn.h   /usr/local/cuda-xx.xx/lib64/libcudnn*

如果喜欢采用deb的安装方式的，参见

以上流程如果走下来还是出错的话，建议重新卸载显卡驱动再来一次。

Anaconda了解和安装

采用Anaconda进行python环境的管理是一个很高效的解决方案。从仓库下载对应版本的软件进行安装。点我下载。

bash Anaconda3-5.0.1-Linux-x86_64.sh 安装。安装过程需要同意将安装路径加入到环境变量的配置文件中。 source ~.bashrc使其生效。

建立自己新的环境 conda create-n your_name python=your_version
激活新的环境 source activate your_name

Pytorch安装

到pytorch官网下载对应版本的pytorch 即可。官网

根据生产的命令进行安装。安装完成之后测试：

复制代码
python  # 进入python 环境
import torch  # 导入安装的pytorch包
torch.cuda.is_available()  # 检查cuda是否可以使用

如果torch.cuda.is_available()如果输出是false，那就表示前面的驱动或者cuda的安装有问题，最可能的就是驱动。直接卸载重新安装显卡驱动即可解决问题。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取==🆓

在这里插入图片描述