Bootstrap

LMDeploy大模型量化部署实践

书生·浦语大模型实战营笔记系列

5)LMDeploy大模型量化部署实践



前言

在这里插入图片描述


一、大模型部署背景

1.模型部署的定义和大模型的特点

在这里插入图片描述

1.大模型部署的挑战和方案

在这里插入图片描述

二、LMDeploy简介

在这里插入图片描述

1.核心功能-量化

在这里插入图片描述
在这里插入图片描述
运用的算法,这里用的是AWQ算法(开一个小坑
在这里插入图片描述

2.核心功能-推理引擎TurboMind

在这里插入图片描述
持续批处理的简单演示,可以去到文本中的视频源地址中的第27分钟看讲解
在这里插入图片描述
有状态的推理
在这里插入图片描述
Blocked k/v cache
在这里插入图片描述
高性能的cuda kernel
在这里插入图片描述

三、动手实战环节

源文档
源视频

四、作业

在这里插入图片描述

本地对话以Gradio形式的和网页Gradio的演示截图如下图所示
在这里插入图片描述
API服务的截图如下图所示
在这里插入图片描述


总结

这节课主要学习了各种部署方式。

;