书生·浦语大模型实战营-学习笔记6 - 悦读

书生·浦语大模型实战营-学习笔记6

目录

OpenCompass大模型测评

OpenCompass大模型测评

1. 关于评测

在这里插入图片描述

1.1 为什么要评测？

在这里插入图片描述

在这里插入图片描述

1.2 需要评测什么？

在这里插入图片描述

1.3 如何评测？

在这里插入图片描述

1.3.1 客观评测

在这里插入图片描述
可以基于正则表达式的方式，提取模型的回答，只要在模型的回答中提取到北京这个关键词，就认为模型在客观上答对了这道题。就可以去统计所有题目在客观上的准确率，这样是客观评测的方式。

1.3.2 主观评测

在这里插入图片描述

1.3.3 提示词工程评测

在这里插入图片描述
另一种对模型进行评测的方式：可以使用Prompt Enginnering方法测试模型对Prompt的敏感性。

同一个问题有多种问法，有多种Prompt的表达方式，预期模型在这5种问题下的回答都是一样的，都能答对。如果只是简单的换了一种Prompt的问法，模型就答错了的话，说明模型的鲁棒性很差。

在这里插入图片描述

2. 介绍OpenCompass工具

在这里插入图片描述

在这里插入图片描述

3. 实战演示

https://github.com/InternLM/tutorial/blob/main/opencompass/opencompass_tutorial.md

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

初探Linux内核态——通过proc文件系统作快速问题定位

【源码解析】Java NIO 包中的 Buffer

Sublime Text入门使用教程

7月4日【新题高级】HarmonyOS应用开发者高级认证

Matlab实现SSA-CNN-LSTM-Attention麻雀优化卷积长短期记忆神经网络注意力机制多变量回归预测（SE注意力机制）

CSS3选择器大全

基于llama3-8B-instruct的调用部署以及lora微调

jsdom爬虫程序中eBay主页内容爬取的异步处理

软件工程知识点总结——第一、二部分

ooracle之函数的使用

;