Bootstrap
Meta:LLM上下文引用偏好对齐
📖标题:SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models 🌐来源:arXiv,
北大:数值精度影响LLM数学推理能力
📖标题:How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs 🌐来源:arXiv, 2410.1385
UCSD:滑动窗口注意力优化视频生成
📖标题:Fast Video Generation with SLIDING TILE ATTENTION 🌐来源:arXiv, 2502.04507 🌟摘要 🔸具有3D全注意力的扩散变换器(Di
通义千问2(Qwen2)大语言模型在PAI-QuickStart的微调、评测与部署实践
Qwen2(通义千问2)是阿里云最近推出的开源大型语言模型系列,相比2月推出的Qwen1.5,Qwen2实现了整体性能的代际飞跃,大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。其中,Qwen
HKUST:通过agent协作选取LLM训练数据
📖标题:Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining 🌐来源:arXiv, 2410.08102 🌟摘
开源超闭源!通义千问Qwen2发布即爆火,网友:GPT-4o危 | 最新快讯
量子位公众号 QbitAI   开源大模型全球格局,一夜再变。   这不,全新开源大模型亮相,性能全面超越开源标杆 Llama 3。王座易主了。不是“媲美”、不是“追上”,是全面超越。发布两小时,
华为:阈值补偿的LLM注意力剪枝
📖标题:Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding 🌐来源:arXiv, 2502.08363
港中文:为不同LLM生成定制化的测试用例
📖标题:The Prompt Alchemist: Automated LLM-Tailored Prompt Optimization for Test Case Generation 🌐来源:ar
阿里巴巴的第二代通义千问可能即将发布:Qwen2相关信息已经提交HuggingFace官方的transformers库
本文来自DataLearnerAI官方网站:阿里巴巴的第二代通义千问可能即将发布:Qwen2相关信息已经提交HuggingFace官方的transformers库 | 数据学习者官方网站(Datale
阿里云:通义千问Qwen2 正式发布
Qwen2 是对前一代 Qwen1.5 全面升级,它提供了多种尺寸的模型,支持更多语言,并在代码理解、数学解题等方面表现更加出色。 千问 2 系列模型基本能够超越同等规模的最优开源模型甚至更大规模的
Meta:LLM人机协作数据标注框架MILO
📖标题:Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs 🌐来源:arXiv, 2409.1
DeepSeek:LLM稀疏注意力架构NSA
📖标题:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention 🌐来源:arXiv, 250
【报错】训练参数不更新
待训练的参数只有某一维度更新,其余维度均不更新,debug看grad,发现其他维度的梯度全是0。有两种可能,要么梯度消失,这种通过调参可以解决;要么就是其他维度根本不参与loss的计算。 我一开始以
DeepSeek:LLM在MoE训练中的无损平衡
📖标题:AUXILIARY-LOSS-FREE LOAD BALANCING STRAT-EGY FOR MIXTURE-OF-EXPERTS 🌐来源:arXiv, 2408.15664 摘要 🔸
set&&mutiset
视频和之前一样,bilibili上搜c++stl就行 #include<iostream> using namespace std; //#include<pair>
;