Bootstrap

面了deepseek 大模型算法岗,被狠狠拷打了。。。

最近春招和实习已开启了。

不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。

最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。

喜欢本文记得收藏、关注、点赞


在这里插入图片描述

岗位

在这里插入图片描述

一面

  1. 位置编码:Bert模型位置编码,llama的后续改进有啥rope,mla用了啥编码咋做到
  2. 是否有基于ChatGPT生成embedding的实际应用案例?其与Bert的embedding机制有何区别?
  3. 大模型微调项目(如GPT系列/Bert等)及采用的微调策略,数据集规模数据配比
  4. 大模型模型包含多少可训练参数?训练和推理显存估计
  5. megraton lm细节,zero三个阶段
  6. LoRA细节,AB矩阵初始化,mla和lora区别,现在有啥peft方法
  7. 讲讲最近读的一篇论文
  8. 最大子数组和问题?

二面

  1. 在之前使用过的一些大模型部署中,您遇到过哪些性能瓶颈及解决方案?
  2. 现在常见的几个大模型有哪些改进区别和不同,rope, silu, gpa, mha
  3. Transformer推理加速的核心技术有哪些 vllm的细节之类的
  4. 讲讲deepseek的mla和grpo挑一个讲讲细节
  5. 讲讲FlashAttention的工作原理
  6. 合并区间
;