Bootstrap

聊聊如何在内网下构建大模型微调环境

背景

AI服务器在内网,除了预先安装的python及docker等基本软件包外,别的一概没有。从零基于Llama-Factory搭建大模型微调环境。

在VMWare上搭一个同样服务器版本(例如centos)的虚拟机,用于联网下载依赖包;后续再拷贝过去。

docker

在运维同事打好docker镜像后,开发编写docker-compose单独起一个docker环境。在这里建议是以自己的名字命名文件夹下起docker,这样的话,docker-compose挂载的volume就比较干净,直接在自己名字的目录下。

docker-compose如下:图片

文件夹结构如下,这是我自己名字下的包文件:图片

虚拟环境venv

进入docker,基于python3默认的venv模块,单独起一个python虚拟环境,隔离包的依赖。

如下:

python -m venv apienv

激活环境:

source ENV_DIR/bin/activate

pip包下载

在内网环境下,如果没有镜像库支持,是无法像平时一样一键pip intasll xxx安装。因此就要手动搞了。

有两种方案:

  1. pip downloadpip install --no-index
  2. 直接pip install xxx --target /path

当然包的下载是在venv虚拟环境下,隔离开别人的包依赖,防止覆盖或版本不对。

我个人用的命令如下:

# 指定源下载包
pip install pandas -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com  

# 将本地目录打包,解决llamafactory-cli命令报错的问题
pip install -e . --no-build-isolation --no-index --find-links=./

# 指定源下载requirements依赖,并指定下载目录
pip download -r requirements.txt -d /home/sitepackage/ --index-url http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com   

# 指定源下载 指定包 ,并制定下载目录
pip3 download -d /home/sitepackage/ gradio==4.21.0 -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com  

# 离线安装 download 下载好的依赖包
pip install --no-index --find-links=/home/sitepackage/ -r requirements.txt

LLaMA-Factory报错

llamafactory-cli不存在

新版Llama-Factory改为了llamafactory-cli命令训练微调。但该命令默认是不存在的,需要在LlamaFactory源码的目录下运行 pip install -e .即可,官方文档已经写了需要事先运行该命令。但在离线环境下,就不能直接这么写,上述的命令列表已给出命令。不过当时还是出现了新的问题:

见issue。图片

是LlamaFactory自身的问题,重新拉去最新的代码即可。只要按照如上步骤,先download包,然后install,最后执行:

pip install -e . --no-build-isolation --no-index --find-links=/home/sitepackage/

即可生成llamafactory-cli命令。

docker共享内存不足

报错如下:

 NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1970, unhandled system error (run with NCCL_DEBUG=INFO for details), NCCL version 2.20.5 
 System call (e.g. socket, malloc) or external library call failed or device error.  
 error: 
 while creating shared memory segment /dev/shm/nccl-jURtqQ (size 5767520)

docker默认的内存是 64MB,在执行llamafactory-cli train xxx时,如果当前机器是多卡,那么默认是分布式训练。docker共享内存不足,调大docker内存即可。在docker-compose文件中,增加配置:

shm_size: 16GB

当然也可以指定单卡训练,如果单卡的显存够的话,命令如下:CUDA_VISIBLE_DEVICES=0 llamafactory-cli train xxx

参考:https://github.com/NVIDIA/nccl/issues/342[1]https://www.jianshu.com/p/3ba9a016dc82[2]

transformers版本不对

报错如下:

ValueError: too many values to unpack (expected 2)

重新安装一下transformers,其指定版本为4.41.2。

总结

LlamaFactory新版更新后,还是比较方便,只是说llamafactory-cli命令的确是有点蒙,踩个坑就好了。

对于LlamaFactory微调来说,本身不难,毕竟都是配置;主要是在内网环境下的依赖包拉取安装是真麻烦,但其实也还好。走一遍的话,还是可以学到很多的。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

;