文章目录
1. 数据集(Dataset)
- 数据集是由多个样本组成的集合,每个样本包括多个特征。数据集的目标是用于训练模型。
- 示例:假设有一个房屋数据集,包含了以下内容:
面积(平方米), 房龄(年), 位置, 房价(万元) 100, 5, 市中心, 500 80, 10, 郊区, 350 120, 3, 市中心, 600 90, 8, 郊区, 400
2. 样本(Sample)
- 样本是数据集中的一个数据点,表示一个具体的房屋。每个样本由多个属性(特征)组成。
- 示例:一个样本可能是:
这表示一套面积为100平方米、房龄5年的房屋,位于市中心,价格是500万元。100, 5, 市中心, 500
3. 属性(Attribute)
- 属性是用于描述样本的特征,通常用来区分不同的样本。
- 示例:对于上面的样本,属性可以是:
- 面积(平方米)
- 房龄(年)
- 位置(如:市中心、郊区等)
- 房价(万元)
4. 特征(Feature)
- 特征通常是样本的具体属性,表示样本的某一维度的数据。特征用于机器学习模型的训练。
- 示例:在房价预测中,“面积”、“房龄”、“位置”都是特征。通常,“房价”是目标变量(也叫标签),不是特征。
5. 属性值(Attribute Value)
- 属性值是样本中某一属性的具体取值。
- 示例:对于样本
100, 5, 市中心, 500
,属性值分别是:- 面积:100
- 房龄:5
- 位置:市中心
- 房价:500
6. 属性空间(Attribute Space)
- 属性空间是所有属性可能的取值集合,描述了每个属性的值域。
- 示例:
- 面积属性空间:可能是[0, 1000](平方米),表示所有可能的面积范围。
- 房龄属性空间:可能是[0, 100](年),表示房龄的可能取值范围。
- 位置属性空间:可能是{“市中心”, “郊区”},表示房屋可能的所在位置。
- 房价属性空间:可能是[100, 1000](万元),表示房价的可能范围。
7. 样本空间(Sample Space)
- 样本空间是数据集中的所有可能样本的集合。它描述了数据集中的所有可能样本的组合。
- 示例:样本空间包括了所有可能的房屋记录,例如:
样本空间包含所有类似的记录,并且每个样本由多个属性值(如面积、房龄、位置)构成。100, 5, 市中心, 500 80, 10, 郊区, 350 120, 3, 市中心, 600 90, 8, 郊区, 400
8. 输入空间(Input Space)
- 输入空间是指在模型中,输入数据的所有可能取值集合。在训练时,输入空间通常是指特征空间,除去目标变量(标签)。
- 示例:在房价预测中,输入空间包括所有可能的特征值组合,即“面积”和“房龄”以及“位置”,但是不包括“房价”(目标变量)。输入空间可能是:
- 面积:0到1000平方米
- 房龄:0到100年
- 位置:{市中心, 郊区}
9. 特征向量(Feature Vector)
- 特征向量是一个由样本的各个特征值组成的向量,是样本在多维特征空间中的数学表示。
- 示例:对于一个样本
100, 5, 市中心, 500
,其特征向量可以表示为:
其中,“100”是面积,“5”是房龄,“0”是“市中心”的编码(假设我们用独热编码将“市中心”映射为0,郊区映射为1)。[100, 5, 0]
总结:
- 数据集:包含多个样本(如一组房屋数据)
- 样本:数据集中的每一条记录(如一个房屋的数据)
- 属性:样本中的各个特征(如面积、房龄、位置)
- 特征:与属性相同,描述样本的维度(如面积、房龄、位置)
- 属性值:某一属性的具体值(如100平方米、5年)
- 属性空间:属性可能的所有取值范围(如面积[0, 1000]平方米)
- 样本空间:数据集中的所有可能样本的集合
- 输入空间:模型训练时的输入数据的所有可能取值,通常不包括目标变量(标签)
- 特征向量:将样本的各个特征值组合成的一个数学向量(如
[100, 5, 0]
)