Bootstrap
主页
随机阅读
Meta:LLM上下文引用偏好对齐
📖标题:SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models 🌐来源:arXiv,
北大:数值精度影响LLM数学推理能力
📖标题:How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs 🌐来源:arXiv, 2410.1385
UCSD:滑动窗口注意力优化视频生成
📖标题:Fast Video Generation with SLIDING TILE ATTENTION 🌐来源:arXiv, 2502.04507 🌟摘要 🔸具有3D全注意力的扩散变换器(Di
通义千问2(Qwen2)大语言模型在PAI-QuickStart的微调、评测与部署实践
Qwen2(通义千问2)是阿里云最近推出的开源大型语言模型系列,相比2月推出的Qwen1.5,Qwen2实现了整体性能的代际飞跃,大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。其中,Qwen
HKUST:通过agent协作选取LLM训练数据
📖标题:Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining 🌐来源:arXiv, 2410.08102 🌟摘
开源超闭源!通义千问Qwen2发布即爆火,网友:GPT-4o危 | 最新快讯
量子位公众号 QbitAI 开源大模型全球格局,一夜再变。 这不,全新开源大模型亮相,性能全面超越开源标杆 Llama 3。王座易主了。不是“媲美”、不是“追上”,是全面超越。发布两小时,
华为:阈值补偿的LLM注意力剪枝
📖标题:Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding 🌐来源:arXiv, 2502.08363
港中文:为不同LLM生成定制化的测试用例
📖标题:The Prompt Alchemist: Automated LLM-Tailored Prompt Optimization for Test Case Generation 🌐来源:ar
阿里巴巴的第二代通义千问可能即将发布:Qwen2相关信息已经提交HuggingFace官方的transformers库
本文来自DataLearnerAI官方网站:阿里巴巴的第二代通义千问可能即将发布:Qwen2相关信息已经提交HuggingFace官方的transformers库 | 数据学习者官方网站(Datale
阿里云:通义千问Qwen2 正式发布
Qwen2 是对前一代 Qwen1.5 全面升级,它提供了多种尺寸的模型,支持更多语言,并在代码理解、数学解题等方面表现更加出色。 千问 2 系列模型基本能够超越同等规模的最优开源模型甚至更大规模的
Meta:LLM人机协作数据标注框架MILO
📖标题:Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs 🌐来源:arXiv, 2409.1
DeepSeek:LLM稀疏注意力架构NSA
📖标题:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention 🌐来源:arXiv, 250
【报错】训练参数不更新
待训练的参数只有某一维度更新,其余维度均不更新,debug看grad,发现其他维度的梯度全是0。有两种可能,要么梯度消失,这种通过调参可以解决;要么就是其他维度根本不参与loss的计算。 我一开始以
DeepSeek:LLM在MoE训练中的无损平衡
📖标题:AUXILIARY-LOSS-FREE LOAD BALANCING STRAT-EGY FOR MIXTURE-OF-EXPERTS 🌐来源:arXiv, 2408.15664 摘要 🔸
set&&mutiset
视频和之前一样,bilibili上搜c++stl就行 #include<iostream> using namespace std; //#include<pair>
上一页
下一页
悦读
道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。
最新收录
2025年可再生能源与节能国际会议(REEC 2025)
Redis高级篇之布隆过滤器
IntelliJ IDEA 常用快捷键
最优化方法-牛顿法
手把手教你使用Java四大核心特性,构建一个学生管理系统
error: failed to push some refs to ... 就这篇,一定帮你解决
C++之lambda表达式详解
Vue——v-bind及class与style绑定
ansible-playbook角色roles使用实例及遇到的问题排除记录
springboot~security中自定义forbidden和unauthorized返回值