书生·浦语大模型实战营笔记系列
5)LMDeploy大模型量化部署实践
文章目录
前言
一、大模型部署背景
1.模型部署的定义和大模型的特点
1.大模型部署的挑战和方案
二、LMDeploy简介
1.核心功能-量化
运用的算法,这里用的是AWQ算法(开一个小坑
2.核心功能-推理引擎TurboMind
持续批处理的简单演示,可以去到文本中的视频源地址中的第27分钟看讲解
有状态的推理
Blocked k/v cache
高性能的cuda kernel
三、动手实战环节
四、作业
本地对话以Gradio形式的和网页Gradio的演示截图如下图所示
API服务的截图如下图所示
总结
这节课主要学习了各种部署方式。