Bootstrap
HKUST:通过agent协作选取LLM训练数据
📖标题:Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining 🌐来源:arXiv, 2410.08102 🌟摘
开源超闭源!通义千问Qwen2发布即爆火,网友:GPT-4o危 | 最新快讯
量子位公众号 QbitAI   开源大模型全球格局,一夜再变。   这不,全新开源大模型亮相,性能全面超越开源标杆 Llama 3。王座易主了。不是“媲美”、不是“追上”,是全面超越。发布两小时,
华为:阈值补偿的LLM注意力剪枝
📖标题:Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding 🌐来源:arXiv, 2502.08363
港中文:为不同LLM生成定制化的测试用例
📖标题:The Prompt Alchemist: Automated LLM-Tailored Prompt Optimization for Test Case Generation 🌐来源:ar
阿里巴巴的第二代通义千问可能即将发布:Qwen2相关信息已经提交HuggingFace官方的transformers库
本文来自DataLearnerAI官方网站:阿里巴巴的第二代通义千问可能即将发布:Qwen2相关信息已经提交HuggingFace官方的transformers库 | 数据学习者官方网站(Datale
阿里云:通义千问Qwen2 正式发布
Qwen2 是对前一代 Qwen1.5 全面升级,它提供了多种尺寸的模型,支持更多语言,并在代码理解、数学解题等方面表现更加出色。 千问 2 系列模型基本能够超越同等规模的最优开源模型甚至更大规模的
Meta:LLM人机协作数据标注框架MILO
📖标题:Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs 🌐来源:arXiv, 2409.1
DeepSeek:LLM稀疏注意力架构NSA
📖标题:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention 🌐来源:arXiv, 250
【报错】训练参数不更新
待训练的参数只有某一维度更新,其余维度均不更新,debug看grad,发现其他维度的梯度全是0。有两种可能,要么梯度消失,这种通过调参可以解决;要么就是其他维度根本不参与loss的计算。 我一开始以
DeepSeek:LLM在MoE训练中的无损平衡
📖标题:AUXILIARY-LOSS-FREE LOAD BALANCING STRAT-EGY FOR MIXTURE-OF-EXPERTS 🌐来源:arXiv, 2408.15664 摘要 🔸
set&&mutiset
视频和之前一样,bilibili上搜c++stl就行 #include<iostream> using namespace std; //#include<pair>
通义千问 2,大模型应用开发时的新选择
我在进行 AI 相关的开发中,最常用的模型是通义千问。本地开发的时候,使用 Ollama 来运行 qwen 模型。集成测试和线上环境,使用阿里云模型服务灵积上的通义千问模型。使用阿里云的好处是:模型服
腾讯:LLM结合快慢思考求解复杂问题
📖标题:HDFlow: Enhancing LLM Complex Problem-Solving with Hybrid Thinking and Dynamic Workflows 🌐来源:arX
阿里通义千问,彻底爆了!(本地部署+实测)
点击“终码一生”,关注,置顶公众号 每日技术干货,第一时间送达! 问大家一个问题:你是否想过在自己的电脑上部署一套大模型?并用自己的知识库训练他? 阿里通义千问今天发布了最新的开源大模型系列
开源超闭源!通义千问Qwen2发布即爆火,网友:GPT-4o危
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI 开源大模型全球格局,一夜再变。 这不,全新开源大模型亮相,性能全面超越开源标杆Llama 3。王座易主了。不是“媲美”、不是“追上”,是全面
;