2024年12月阿里发布的Qwen2.5
的技术报告:[2412.15115] Qwen2.5 Technical Report https://arxiv.org/abs/2412.15115
TL;DR
-
研究动机:构建更强大、更通用、更易用的LLM,克服现有模型在规模、数据质量、长文本处理等方面的局限。
-
核心创新:
-
预训练数据扩展:将高质量预训练数据从7万亿词元扩展到18万亿,增强模型的常识和专业知识。
-
数据质量提升:严格数据过滤,加入数学、编程等专业领域数据,生成高质量合成数据,优化数据混合策略。
-
模型规模多样化:提供从0.5B到72B参数的模型,包括密集模型和MoE模型,满足不同资源和应用需求。
-
后训练强化:实施精细的监督微调(超百万样本)和多阶段强化学习(DPO和GRPO),提升指令遵循、逻辑推理等能力。
-
长文本能力增强:引入YARN和双块注意力(DCA) 技术,支持最长100万词元的上下文处理,特别是Qwen2.5-Turbo。
-
易用性改进:提升最大生成长度至8K,增强结构化数据支持,简化工具使用。
-
实验结果:
-
模型性能:Qwen2.5-72B在各项任务上表现出色,可媲美或超越更大型号,如Llama-3-405B。
-
Instruction模型:Qwen2.5-72B-Instruct在多个任务上超越Llama-3.1-405B-Instruct;Qwen2.5-Turbo在多个任务上与GPT-4o-mini竞争力相当。
-
长文本处理:在RULER、LV-Eval等长文本评估中,取得显著性能提升,Qwen2.5-Turbo在100万词元上下文下表现优异。
-
奖励模型:Qwen2.5-RM-72B在PPE和人类偏好评估中表现最佳。
主要内容
1. 作者和团队信息
- 作者:Qwen Team(通义千问团队),阿里巴巴集团旗下的 AI 团队,专注于大语言模型及相关技术的研究和开发。
2. 背景和动机
-
研究问题:如何构建更强大、更通用、更易用的大语言模型(LLMs)。
-
问题背景:
-
AGI 的快速发展:大型语言模型在语言理解、生成和推理等方面展现出强大的能力,激发了人们对通用人工智能(AGI)的期望。
-
开源 LLM 的兴起:Llama、Mistral 和 Qwen 等开源模型的出现,降低了 LLM 的使用门槛,促进了 AI 技术在各个领域的普及。
-
现有模型的局限性:
-
模型尺寸和参数量需要进一步探索。
-
预训练和微调数据质量需要进一步提升。
-
长文本生成、结构化数据分析和工具使用等能力有待加强。
3. 相关研究
-
模型和数据扩展:
-
模型扩展:通过增加模型参数量来提升模型能力,如 GPT-3、Llama 等。
-
数据扩展:通过增加预训练数据量来提升模型性能,如 Chinchilla Scaling Laws。
-
预训练 + 微调:
-
预训练:在海量无标注数据上进行训练,使模型学习到通用的语言知识。
-
监督微调(SFT):在高质量的标注数据上进行微调,使模型适应特定任务。
-
强化学习(RLHF):通过人类反馈进行强化学习,使模型生成更符合人类偏好的结果。
-
长文本处理:
-
位置编码:如 RoPE 和 ALiBi,用于处理长文本中的位置信息。
-
注意力机制优化:如 GQA 和窗口注意力,用于降低长文本计算开销。
-
上下文扩展:如 YARN 和 DCA,用于扩展模型的上下文窗口。
4. 核心思路
Qwen2.5 的核心思路是 全面提升预训练和后训练阶段,以构建在规模、数据质量和易用性方面更优异的LLM。其创新之处包括:
-
预训练数据扩展:将高质量预训练数据从 7万亿 词元扩展到 18万亿,增强模型的常识、专业知识和推理能力。
-
数据质量提升:通过更严格的数据过滤、引入专业领域的数据(如数学、编程)、生成高质量的合成数据,以及优化数据混合策略,确保训练数据的高质量和多样性。
-
多样化的模型规模:提供从 0.5B 到 72B 参数的模型,包括 密集模型 和 专家混合(MoE)模型,满足不同的资源和应用需求。
-
后训练强化:在后训练阶段,实施精细的 监督微调(超过100万条样本)和 多阶段强化学习,包括 离线学习DPO(直接偏好优化)和 在线学习GRPO(群体相对策略优化)。
-
长文本能力增强:通过引入 YARN 和 双块注意力(DCA) 等技术,支持更长的上下文长度,Qwen2.5-Turbo 甚至可处理最长 100万 词元的上下文。
-
易用性改进:解决前代模型在使用上的限制,如将最大生成长度从 2K 增加到 8K,增强对结构化数据的支持,以及简化工具的使用。
5. 方案与技术
-
模型架构:
-
Dense 模型:基于 Transformer 的 Decoder 架构,采用 GQA、SwiGLU、RoPE、QKV bias 和 RMSNorm 等组件。
-
MoE 模型:将 FFN 层替换为 MoE 层,采用细粒度专家分割和共享专家路由。
-
Tokenizer:
-
采用 byte-level BPE(BBPE)算法,词汇表扩展到 151,643 个标记。
-
增加了更多的控制标记,增强一致性和兼容性,支持工具调用等功能。
-
预训练:
-
数据准备:
-
使用 Qwen2-Instruct 模型进行高质量数据过滤。
-
引入 Qwen2.5-Math 和 Qwen2.5-Coder 的数据。
-
使用 Qwen2-72B-Instruct 和 Qwen2-Math-72B-Instruct 模型生成高质量合成数据。
-
优化数据混合比例,平衡不同领域的数据。
-
超参数优化:
-
基于 Scaling Law 推导模型超参数,如 batch size 和 learning rate。
-
针对不同模型规模和训练数据量,选择最佳超参数。
-
长文本预训练:
-
两阶段训练:初始阶段使用 4,096 长度,扩展阶段使用 32,768 长度。
-
Qwen2.5-Turbo:使用采用了 渐进式上下文长度扩展策略,在每个阶段,训练数据中包含当前最大长度的序列和较短的序列,以使模型逐步适应更长的上下文,经过多阶段扩展到 262,144 。
-
RoPE 频率调整:使用 ABF 技术将 RoPE 基频率从 10,000 提升至 1,000,000。
-
长文本处理优化:采用 YARN 和 DCA 技术,实现上下文长度 4 倍的扩展(1M tokens)。
-
后训练:
-
监督微调(SFT):
-
使用超过 100 万的样本进行微调。
-
包括长文本生成、数学、代码、指令遵循、结构化数据理解、逻辑推理、跨语言迁移和系统指令等任务。
-
使用高质量数据集和筛选机制。
-
离线强化学习(Offline RL):
-
使用 DPO 算法训练模型,提升数学、代码、指令遵循和逻辑推理等能力。
-
构建高质量的训练样本,使用人类和自动 review 方法进行质量控制。
-
在线强化学习(Online RL):
-
使用 GRPO 算法训练模型,使其生成更符合人类偏好的结果。
-
使用多维度评估标准,包括真实性、有用性、简洁性、相关性、无害性和去偏见。
-
长文本微调:
-
针对 Qwen2.5-Turbo,使用长文本 SFT 数据进行微调,提升模型在长文本任务中的性能。
-
在 SFT 阶段,结合短文本和长文本数据进行混合训练。
-
在 RL 阶段,仅使用短文本数据进行训练。
6. 实验与结论
-
评估方法:使用多种公开数据集和内部数据集进行评估,包括自然语言理解、推理、数学、代码、人类偏好等。
-
实验结果:
-
Base 模型:Qwen2.5-72B 在各项任务上都表现出色,可以媲美 Llama-3-405B,在很多任务上甚至超越了 Llama-3-405B。Qwen2.5-Plus 以较低的训练和推理成本取得了媲美 Qwen2.5-72B 和 Llama-3-405B 的性能。
-
Instruction 模型:Qwen2.5-72B-Instruct 在多个任务上超越了 Llama-3.1-405B-Instruct。Qwen2.5-Turbo 在多个任务上与 GPT-4o-mini 表现出了竞争力。
-
长文本能力:Qwen2.5 模型在 RULER、LV-Eval 和 LongBench-Chat 等长文本评估任务上取得了显著的性能提升,特别是 Qwen2.5-Turbo 在 100 万 token 上取得了优秀的 passkey retrieval 性能。
-
Reward 模型:Qwen2.5-RM-72B 在 PPE 和 Human-Preference-Chinese 评估中表现最佳。
-
主要结论:
-
Qwen2.5 系列模型在各项任务上都取得了显著的性能提升。
-
Qwen2.5-72B-Instruct 的性能可以媲美甚至超越了更大的 Llama-3-405B-Instruct 模型。
-
Qwen2.5-Turbo 在长文本处理和推理方面具有突出优势。
7. 贡献
-
模型性能:Qwen2.5 系列模型在多个评测基准上取得了领先的性能,尤其是在长文本处理、数学推理和代码生成等领域。
-
模型多样性:提供了多种模型大小和配置,满足不同场景的需求,包括开放权重模型和专有模型。
-
开源社区:开放模型权重和 API,促进了 AI 技术在学术界和工业界的普及。
-
未来启示:
-
数据质量和规模仍然是提升模型性能的关键因素。
-
预训练和微调方法需要不断优化和探索。
-
长文本处理仍然是当前 LLM 发展的重要方向。
-
奖励模型本身的评估需要进一步探索。
-
多模态模型是未来的发展趋势。
8. 不足
-
文化理解:在捕捉文化细微差别方面,Qwen2.5 相对于 Qwen2 有所改进,但仍有进一步改进的空间。
-
奖励模型评估:当前奖励模型的评估方法不完善,无法准确预测 RL 模型在下游任务中的表现。
-
没有开源代码和数据,更多的技术细节只能推测。
QA
Q1: Qwen2.5 相比于 Qwen2,最大的改进是什么?
-
数据规模与质量:预训练数据从 7 万亿 tokens 扩展到 18 万亿 tokens,并且更加注重数据质量和混合比例,引入了数学、代码等高质量领域数据,以及精心筛选的合成数据。这使得 Qwen2.5 在常识、专业知识和推理能力方面有了显著提升。
-
训练方法:Qwen2.5 采用了多阶段的预训练和后训练方法,包括:
-
使用 Scaling Law 优化模型超参数。
-
采用两阶段预训练,提高训练效率和长文本处理能力。
-
使用 SFT、DPO 和 GRPO 等多阶段强化学习,优化模型在不同任务上的性能。
-
模型能力:
-
显著提升了长文本生成和处理能力,上下文长度从 2K 扩展到 8K(甚至 1M)。
-
更好地支持结构化数据分析、工具使用和指令遵循。
-
通过优化训练策略,使得模型在数学、代码、推理等任务上取得了更好的表现。
Q2: 这篇报告中多次提到 “Scaling Law”,这个概念是什么?它在 Qwen2.5 的训练中扮演了什么角色?
“Scaling Law” 描述的是模型性能随着模型参数量、训练数据量和计算资源的增加而变化的规律。简单来说,就是在一定范围内,模型参数越多,训练数据越多,模型性能通常也会越好。
在 Qwen2.5 的训练中,Scaling Law 主要扮演了两个角色:
-
指导模型超参数选择:传统的超参数选择方法通常是试错法,需要进行大量的实验才能找到最优的超参数。而 Qwen2.5 通过 Scaling Law,根据模型的参数量和数据量,推导出最优的学习率(_µ_opt)和 batch size(Bopt),从而避免了盲目的实验,提高了训练效率。
-
预测模型性能:Qwen2.5 利用 Scaling Law 来预测不同大小的 dense 模型和 MoE 模型的性能,并比较它们在不同参数量下的表现。这有助于团队在有限的计算资源下,选择更合适的模型架构和参数量。例如,通过scaling law 发现MoE模型可以通过调整激活参数和总参数来实现特定dense模型的性能。
Q3: 预训练数据中的“合成数据”是如何生成的?它为什么能提升模型的性能?
Qwen2.5 使用了 Qwen2-72B-Instruct 和 Qwen2-Math-72B-Instruct 等大型模型来生成高质量的合成数据,尤其是在数学、代码和知识领域。具体来说,过程如下:
-
模型生成:首先,使用上述大型模型,根据特定的指令或prompt,生成文本、代码或数学题解。
-
质量过滤:
-
通用奖励模型:使用一个通用的奖励模型,对生成的合成数据进行初步筛选,去除质量较低的数据。
-
专业奖励模型:对于数学合成数据,还使用了 Qwen2-Math-RM-72B 模型进行更精细的过滤,确保数学解题过程的正确性和严谨性。
-
人工审核:对于一些关键领域的合成数据,还会进行人工审核,确保数据的质量和多样性。
合成数据之所以能提升模型性能,是因为:
-
补充高质量数据:合成数据可以补充高质量的训练数据,尤其是在一些稀有领域,这些领域的真实数据很难获取。
-
增加数据多样性:合成数据可以增加训练数据的多样性,使模型能够更好地泛化到不同的场景和任务。
-
增强模型能力:合成数据可以针对特定的模型缺陷进行优化,从而增强模型的特定能力,如数学推理、代码生成等。
Q4: 报告中提到的 “Grouped Query Attention (GQA)”、“SwiGLU” 和 “Rotary Positional Embeddings (RoPE)” 等技术,它们各自的作用是什么?
-
Grouped Query Attention (GQA):
-
作用:GQA 是一种注意力机制的优化,主要用于提高 KV cache 的利用率。在传统的 Transformer 模型中,每个 attention head 都有独立的 Key 和 Value 矩阵,这会导致计算和内存开销较大。GQA 将多个 attention head 共享一部分 Key 和 Value 矩阵,从而降低了计算和内存开销,特别是在长文本处理时,能显著提高效率。
-
SwiGLU:
-
作用:SwiGLU 是一种激活函数,它替代了传统的 ReLU 激活函数。SwiGLU 具有更好的非线性特性,能够更好地捕捉数据中的复杂模式,从而提升模型的性能。
-
用例:ReLU 的形式是
,可以看到𝑥<0时也有非0的输出,因此保留了更多的梯度信息。
-
Rotary Positional Embeddings (RoPE):
-
作用:RoPE 是一种位置编码方式,用于在 Transformer 模型中引入位置信息。由于 Transformer 本身是无法感知位置的,RoPE 通过旋转的方式将位置信息嵌入到词向量中,使模型能够理解词语之间的相对位置关系。
Q5: 报告中提到了 “Direct Preference Optimization (DPO)” 和 “Group Relative Policy Optimization (GRPO)”,它们是什么?为什么 Qwen2.5 要同时使用它们?
-
Direct Preference Optimization (DPO):
-
原理:DPO 是一种离线强化学习算法。它通过直接比较人类对不同模型输出的偏好,来优化模型。它不依赖于奖励模型,而是直接优化模型策略,使其产生与人类偏好对齐的输出。
-
类比:DPO 就像一个老师直接告诉学生哪些答案更好,而不需要给每个答案打分。
-
在 Qwen2.5 中的作用:主要用于提升模型在数学、代码、指令遵循和逻辑推理等任务上的性能。这些任务往往有标准的答案,但难以用奖励模型进行评估。
-
Group Relative Policy Optimization (GRPO):
-
原理:GRPO 是一种在线强化学习算法。它通过奖励模型来评估模型的输出,并根据奖励值来优化模型策略。GRPO 关注的是同一 query 下不同 responses 的相对好坏,鼓励模型生成更好的输出。
-
在 Qwen2.5 中的作用:主要用于提升模型在 truthfulness (真实性)、helpfulness(有用性)、conciseness(简洁性)、relevance(相关性)、harmlessness(无害性)和 debiasing(去偏见)等方面的性能。
为什么同时使用 DPO 和 GRPO:
-
互补性:DPO 适用于有标准答案但难以评估的任务,而 GRPO 适用于可评估但需要优化人类偏好的任务。DPO 擅长处理客观性较强的任务,GRPO 则擅长处理主观性较强的任务。
-
协同提升:通过同时使用这两种算法,Qwen2.5 可以更好地提升模型在各种任务上的性能,使其更强大、更通用、更符合人类偏好。
Q6: 为了增强模型的长文本处理能力,Qwen2.5使用了哪些技术,这些技术的重要性是什么?
-
渐进式上下文长度扩展:
-
方法:在训练过程中,逐步增加模型处理的最大上下文长度,例如从 4,096 词元扩展到 32,768 词元,甚至到 100万 词元(针对Qwen2.5-Turbo)。
-
作用:使模型逐步适应更长的序列,避免一次性扩展带来的训练困难。
-
旋转位置编码(RoPE)基频调整:
-
方法:通过调整RoPE的位置编码基频,使得位置编码能够适应更长的序列长度。
-
作用:确保模型在长序列中能够正确地编码位置信息,保持对不同位置词元的区别能力。
-
YARN(Yet Another RoPE eNhancement):
-
方法:YARN 是一种位置编码外推方法,它可以扩展 RoPE 的有效范围。传统的 RoPE 位置编码在处理超过一定长度的文本时,会遇到性能下降的问题,而 YARN 通过修改 RoPE 的基频,使其能够处理更长的文本,同时保持性能。
-
作用:提高模型对超出训练范围的长序列的泛化能力。
-
双块注意力(DCA):
-
方法:一种高效的注意力机制,将长序列分块处理,降低计算复杂度。它将长文本分成两个 chunk(块):一个是核心 chunk,包含最重要的信息;另一个是周围 chunk,包含上下文信息。DCA 优先关注核心 chunk,然后再关注周围 chunk,从而减少了计算量,提高了长文本处理效率。
-
作用:使模型在推理时能够高效地处理超长序列(如 100万 tokens),避免计算资源的过度消耗。
重要性:
-
应对长文本需求:在处理如长篇文章、法律文件、代码库等场景中,模型需要理解和生成长文本。
-
保持上下文一致性:提升模型在长距离依赖和全局一致性方面的表现,避免随着序列长度增加而导致的性能下降。
-
拓展应用场景:支持长上下文的模型可以应用于更多领域,如长文档摘要、跨文档问答、大规模数据分析等。
Q7:什么是专家混合(MoE)架构,它如何提升像Qwen2.5-Turbo和Qwen2.5-Plus这样的模型的性能?
专家混合(Mixture-of-Experts,MoE) 是一种神经网络架构,其中包含多个 专家子网络(即“专家”),每个专家都擅长处理特定类型的数据或任务。一个 路由器(路由机制) 确定每个输入应由哪些专家来处理。
MoE的优势:
-
计算效率:虽然整体参数量很大,但每次推理时只激活部分专家,因此计算成本并未线性增长,提高了 计算效率。
-
能力专长:不同的专家可以 专注于不同的任务或数据类型,提升模型在多样化任务上的性能。
-
可扩展性:MoE架构可以轻松增加专家数量,从而在不显著增加计算成本的情况下提升模型容量。
对于 Qwen2.5 系列的模型,采用MoE架构能够:
-
在保持较小计算成本的情况下,提升模型性能,使得像 Qwen2.5-Turbo 和 Qwen2.5-Plus 这样的模型,在性能上接近甚至超越更大规模的密集模型。
-
提供更好的性价比:在实际应用中,模型的推理和部署成本更低,但性能不打折扣,适合资源受限的场景。
Q8:为什么报告中说目前的 reward model 的评估方法并不能准确预测 RL 模型的最终表现?这其中有哪些值得思考的问题?
-
过拟合评估基准:现有的奖励模型评估基准可能存在一定的偏差,导致奖励模型在这些基准上表现良好,但在实际应用中表现不佳,这也就是 Goodhart’s Law。
-
奖励模型和 RL 目标不一致:奖励模型的设计目标与 RL 训练的最终目标可能存在差异,例如,奖励模型可能更关注一些简单的指标(如真实性、无害性),而忽略了复杂指标(如推理能力、创造力),导致最终训练出的 RL 模型在复杂任务上表现不足。
-
奖励模型的固有局限性:当前的奖励模型可能无法准确评估一些复杂任务,例如,它可能无法判断一个数学解题步骤是否合理,或是一个长文本的逻辑是否连贯,这就会导致 RL 模型在这些任务上无法获得正确的指导。
Q9: Qwen2.5 的模型规模从 0.5B 到 72B 不等,分别适合什么场景?
-
资源受限场景:
-
小模型(0.5B-3B):适用于移动设备、嵌入式系统等资源受限的场景,在这些场景下,模型的计算和内存开销必须很小,才能保证模型的运行速度和效率。
-
成本敏感场景:
-
中等模型(7B-32B):在性能和成本之间取得了平衡,适合大多数场景。它们在推理速度和准确性方面都有不错的表现,可以满足各种任务的需求。
-
性能要求高场景:
-
大模型(>32B):适用于对性能要求较高的场景,例如:
-
复杂的自然语言处理任务。
-
需要进行复杂推理或数学计算的任务。
-
需要理解长文本的任务。
-
研究和创新:
-
提供不同大小的模型也方便研究人员进行研究和创新,例如:
-
探索模型规模和性能之间的关系。
-
研究如何在不同模型规模下进行模型优化。
-
API 服务:
-
MoE 模型(如 Qwen2.5-Turbo 和 Qwen2.5-Plus)适用于 API 服务,它们可以在保持较高性能的同时,降低推理成本。
Q10:对比一下Qwen2.5 系列各个模型的特点?
模型名称 | 参数量 | 是否开源 | 模型类型 | 适用场景 | Context Length 上下文长度 | Output Context Length 输出长度 | 主要优势 | 主要不足 |
---|---|---|---|---|---|---|---|---|
Qwen2.5-0.5B | 0.5B | 是 | Dense | 边缘设备,资源受限场景 | 32K | 8K | 小模型,资源占用低,适用于资源受限的环境 | 性能相对有限,难以处理复杂任务 |
Qwen2.5-1.5B | 1.5B | 是 | Dense | 边缘设备,移动端应用 | 32K | 8K | 在保持较小规模的同时,性能优于0.5B模型 | 性能有限,无法胜任高复杂度任务 |
Qwen2.5-3B | 3B | 部分开源 | Dense | 资源受限但需较好性能的场景 | 32K | 8K | 在模型规模和性能之间取得平衡,适用于部分应用 | 许可证可能有限制,性能不及更大模型 |
Qwen2.5-7B | 7B | 是 | Dense | 通用用途,资源与性能平衡 | 128K | 8K | 性能较好,适用于多种任务,支持更长的上下文长度 | 资源需求增加,相比更大模型性能略有不足 |
Qwen2.5-14B | 14B | 是 | Dense | 需要更高性能的通用任务 | 128K | 8K | 在多项任务中表现出色,性能提升明显 | 需要更多计算资源 |
Qwen2.5-32B | 32B | 是 | Dense | 高性能需求场景 | 128K | 8K | 性能强大,在复杂任务中表现优异 | 计算资源需求较高 |
Qwen2.5-72B | 72B | 部分开源 | Dense | 研究应用,顶尖性能需求 | 128K | 8K | 在多项基准测试中达到SOTA性能,性能卓越 | 资源消耗巨大,许可证可能有限制 |
Qwen2.5-Turbo | 未明确 | 否 | MoE | 部署于云端的高效应用 | 最长可达1百万 | 未明确 | MoE架构,性价比高,支持超长上下文,处理长文本能力强 | 非开源,需通过特定平台访问 |
Qwen2.5-Plus | 未明确 | 否 | MoE | 云服务,高性能需求场景 | 未明确 | 未明确 | 性能优异,与更大模型性能相当,性价比高 | 非开源,具体参数和细节未公开 |
备注:
-
模型类型:
-
Dense:密集模型,传统的Transformer架构。
-
MoE:专家混合(Mixture-of-Experts)模型,利用多个专家网络提高性能和效率。
-
是否开源及许可证:
-
Apache 2.0:模型开源,可自由使用。
-
Qwen Research 许可证:可能存在一些使用限制,需查看具体许可证条款。
-
Qwen 许可证:可能有更严格的限制,模型可能不完全开源。
-
主要优势:
-
小模型(0.5B - 3B):资源占用低,适合边缘设备和移动端应用。
-
中等规模模型(7B - 32B):在性能和资源需求之间取得平衡,适用于多种通用任务。
-
大型模型(72B):性能卓越,在多个基准测试中达到顶尖水平。
-
MoE模型(Qwen2.5-Turbo 和 Qwen2.5-Plus):采用专家混合架构,性价比高,支持超长上下文长度,适合需要处理长文本的云端应用。
-
主要不足:
-
小模型:性能有限,无法胜任高复杂度任务。
-
大型模型:资源需求高,部署和运行成本较高。
-
许可证限制:部分模型的许可证可能对使用方式有所限制,需注意许可证的具体条款。
-
非开源模型:Qwen2.5-Turbo 和 Qwen2.5-Plus 为专有模型,需通过阿里云等特定平台访问,无法自行部署。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓