悦读

HKUST：通过agent协作选取LLM训练数据

📖标题：Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining 🌐来源：arXiv, 2410.08102 🌟摘

开源超闭源！通义千问Qwen2发布即爆火，网友：GPT-4o危 | 最新快讯

量子位公众号 QbitAI 　　开源大模型全球格局，一夜再变。　　这不，全新开源大模型亮相，性能全面超越开源标杆 Llama 3。王座易主了。不是“媲美”、不是“追上”，是全面超越。发布两小时，

华为：阈值补偿的LLM注意力剪枝

📖标题：Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding 🌐来源：arXiv, 2502.08363

港中文：为不同LLM生成定制化的测试用例

📖标题：The Prompt Alchemist: Automated LLM-Tailored Prompt Optimization for Test Case Generation 🌐来源：ar

阿里巴巴的第二代通义千问可能即将发布：Qwen2相关信息已经提交HuggingFace官方的transformers库

本文来自DataLearnerAI官方网站：阿里巴巴的第二代通义千问可能即将发布：Qwen2相关信息已经提交HuggingFace官方的transformers库 | 数据学习者官方网站(Datale

阿里云：通义千问Qwen2 正式发布

Qwen2 是对前一代 Qwen1.5 全面升级，它提供了多种尺寸的模型，支持更多语言，并在代码理解、数学解题等方面表现更加出色。千问 2 系列模型基本能够超越同等规模的最优开源模型甚至更大规模的

Meta：LLM人机协作数据标注框架MILO

📖标题：Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs 🌐来源：arXiv, 2409.1

DeepSeek：LLM稀疏注意力架构NSA

📖标题：Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention 🌐来源：arXiv, 250

【报错】训练参数不更新

待训练的参数只有某一维度更新，其余维度均不更新，debug看grad，发现其他维度的梯度全是0。有两种可能，要么梯度消失，这种通过调参可以解决；要么就是其他维度根本不参与loss的计算。我一开始以

DeepSeek：LLM在MoE训练中的无损平衡

📖标题：AUXILIARY-LOSS-FREE LOAD BALANCING STRAT-EGY FOR MIXTURE-OF-EXPERTS 🌐来源：arXiv, 2408.15664 摘要 🔸

set&&mutiset

视频和之前一样，bilibili上搜c++stl就行 #include<iostream> using namespace std; //#include<pair>

通义千问 2，大模型应用开发时的新选择

我在进行 AI 相关的开发中，最常用的模型是通义千问。本地开发的时候，使用 Ollama 来运行 qwen 模型。集成测试和线上环境，使用阿里云模型服务灵积上的通义千问模型。使用阿里云的好处是：模型服

腾讯：LLM结合快慢思考求解复杂问题

📖标题：HDFlow: Enhancing LLM Complex Problem-Solving with Hybrid Thinking and Dynamic Workflows 🌐来源：arX

阿里通义千问，彻底爆了！（本地部署+实测）

点击“终码一生”，关注，置顶公众号每日技术干货，第一时间送达！问大家一个问题：你是否想过在自己的电脑上部署一套大模型？并用自己的知识库训练他？阿里通义千问今天发布了最新的开源大模型系列

开源超闭源！通义千问Qwen2发布即爆火，网友：GPT-4o危

鱼羊发自凹非寺量子位 | 公众号 QbitAI 开源大模型全球格局，一夜再变。这不，全新开源大模型亮相，性能全面超越开源标杆Llama 3。王座易主了。不是“媲美”、不是“追上”，是全面

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

Qt实现简化版RSA加密算法

npm : 无法加载文件 D:\nodejs\node_global\npm.ps1，因为在此系统上禁止运行脚本。

股票数据源接口源码有哪些类型？如何获取合法且稳定的股票数据源接口源码？

HTML&CSS实验(5)---学习颜色、字体、文本格式化和盒模型的样式定义

Java实现基于国密SM2、SM4生成证书密钥进行字串的加解密

02Tensorflow IO操作

微服务网关Gateway 过滤路由网关限流

Jenkins安装配置遇到问题及解决方案（Windows版本）

手摸手教你最简单的方式流畅访问GitHub

基于 Flink 构建大规模实时风控系统在阿里巴巴的落地

;