悦读

Meta：LLM上下文引用偏好对齐

📖标题：SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models 🌐来源：arXiv,

北大：数值精度影响LLM数学推理能力

📖标题：How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs 🌐来源：arXiv, 2410.1385

UCSD：滑动窗口注意力优化视频生成

📖标题：Fast Video Generation with SLIDING TILE ATTENTION 🌐来源：arXiv, 2502.04507 🌟摘要 🔸具有3D全注意力的扩散变换器（Di

通义千问2(Qwen2)大语言模型在PAI-QuickStart的微调、评测与部署实践

Qwen2（通义千问2）是阿里云最近推出的开源大型语言模型系列，相比2月推出的Qwen1.5，Qwen2实现了整体性能的代际飞跃，大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。其中，Qwen

HKUST：通过agent协作选取LLM训练数据

📖标题：Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining 🌐来源：arXiv, 2410.08102 🌟摘

开源超闭源！通义千问Qwen2发布即爆火，网友：GPT-4o危 | 最新快讯

量子位公众号 QbitAI 　　开源大模型全球格局，一夜再变。　　这不，全新开源大模型亮相，性能全面超越开源标杆 Llama 3。王座易主了。不是“媲美”、不是“追上”，是全面超越。发布两小时，

华为：阈值补偿的LLM注意力剪枝

📖标题：Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding 🌐来源：arXiv, 2502.08363

港中文：为不同LLM生成定制化的测试用例

📖标题：The Prompt Alchemist: Automated LLM-Tailored Prompt Optimization for Test Case Generation 🌐来源：ar

阿里巴巴的第二代通义千问可能即将发布：Qwen2相关信息已经提交HuggingFace官方的transformers库

本文来自DataLearnerAI官方网站：阿里巴巴的第二代通义千问可能即将发布：Qwen2相关信息已经提交HuggingFace官方的transformers库 | 数据学习者官方网站(Datale

阿里云：通义千问Qwen2 正式发布

Qwen2 是对前一代 Qwen1.5 全面升级，它提供了多种尺寸的模型，支持更多语言，并在代码理解、数学解题等方面表现更加出色。千问 2 系列模型基本能够超越同等规模的最优开源模型甚至更大规模的

Meta：LLM人机协作数据标注框架MILO

📖标题：Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs 🌐来源：arXiv, 2409.1

DeepSeek：LLM稀疏注意力架构NSA

📖标题：Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention 🌐来源：arXiv, 250

【报错】训练参数不更新

待训练的参数只有某一维度更新，其余维度均不更新，debug看grad，发现其他维度的梯度全是0。有两种可能，要么梯度消失，这种通过调参可以解决；要么就是其他维度根本不参与loss的计算。我一开始以

DeepSeek：LLM在MoE训练中的无损平衡

📖标题：AUXILIARY-LOSS-FREE LOAD BALANCING STRAT-EGY FOR MIXTURE-OF-EXPERTS 🌐来源：arXiv, 2408.15664 摘要 🔸

set&&mutiset

视频和之前一样，bilibili上搜c++stl就行 #include<iostream> using namespace std; //#include<pair>

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

2025年可再生能源与节能国际会议（REEC 2025）

Redis高级篇之布隆过滤器

IntelliJ IDEA 常用快捷键

最优化方法-牛顿法

手把手教你使用Java四大核心特性，构建一个学生管理系统

error: failed to push some refs to ... 就这篇，一定帮你解决

C++之lambda表达式详解

Vue——v-bind及class与style绑定

ansible-playbook角色roles使用实例及遇到的问题排除记录

springboot~security中自定义forbidden和unauthorized返回值

;