Bootstrap

机器学习-基本术语

1. 数据集(Dataset)

  • 数据集是由多个样本组成的集合,每个样本包括多个特征。数据集的目标是用于训练模型。
  • 示例:假设有一个房屋数据集,包含了以下内容:
    面积(平方米), 房龄(年), 位置, 房价(万元)
    100, 5, 市中心, 500
    80, 10, 郊区, 350
    120, 3, 市中心, 600
    90, 8, 郊区, 400
    

2. 样本(Sample)

  • 样本是数据集中的一个数据点,表示一个具体的房屋。每个样本由多个属性(特征)组成。
  • 示例:一个样本可能是:
    100, 5, 市中心, 500
    
    这表示一套面积为100平方米、房龄5年的房屋,位于市中心,价格是500万元。

3. 属性(Attribute)

  • 属性是用于描述样本的特征,通常用来区分不同的样本。
  • 示例:对于上面的样本,属性可以是:
    • 面积(平方米)
    • 房龄(年)
    • 位置(如:市中心、郊区等)
    • 房价(万元)

4. 特征(Feature)

  • 特征通常是样本的具体属性,表示样本的某一维度的数据。特征用于机器学习模型的训练。
  • 示例:在房价预测中,“面积”、“房龄”、“位置”都是特征。通常,“房价”是目标变量(也叫标签),不是特征。

5. 属性值(Attribute Value)

  • 属性值是样本中某一属性的具体取值。
  • 示例:对于样本 100, 5, 市中心, 500,属性值分别是:
    • 面积:100
    • 房龄:5
    • 位置:市中心
    • 房价:500

6. 属性空间(Attribute Space)

  • 属性空间是所有属性可能的取值集合,描述了每个属性的值域。
  • 示例
    • 面积属性空间:可能是[0, 1000](平方米),表示所有可能的面积范围。
    • 房龄属性空间:可能是[0, 100](年),表示房龄的可能取值范围。
    • 位置属性空间:可能是{“市中心”, “郊区”},表示房屋可能的所在位置。
    • 房价属性空间:可能是[100, 1000](万元),表示房价的可能范围。

7. 样本空间(Sample Space)

  • 样本空间是数据集中的所有可能样本的集合。它描述了数据集中的所有可能样本的组合。
  • 示例:样本空间包括了所有可能的房屋记录,例如:
    100, 5, 市中心, 500
    80, 10, 郊区, 350
    120, 3, 市中心, 600
    90, 8, 郊区, 400
    
    样本空间包含所有类似的记录,并且每个样本由多个属性值(如面积、房龄、位置)构成。

8. 输入空间(Input Space)

  • 输入空间是指在模型中,输入数据的所有可能取值集合。在训练时,输入空间通常是指特征空间,除去目标变量(标签)。
  • 示例:在房价预测中,输入空间包括所有可能的特征值组合,即“面积”和“房龄”以及“位置”,但是不包括“房价”(目标变量)。输入空间可能是:
    • 面积:0到1000平方米
    • 房龄:0到100年
    • 位置:{市中心, 郊区}

9. 特征向量(Feature Vector)

  • 特征向量是一个由样本的各个特征值组成的向量,是样本在多维特征空间中的数学表示。
  • 示例:对于一个样本 100, 5, 市中心, 500,其特征向量可以表示为:
    [100, 5, 0]
    
    其中,“100”是面积,“5”是房龄,“0”是“市中心”的编码(假设我们用独热编码将“市中心”映射为0,郊区映射为1)。

总结:

  • 数据集:包含多个样本(如一组房屋数据)
  • 样本:数据集中的每一条记录(如一个房屋的数据)
  • 属性:样本中的各个特征(如面积、房龄、位置)
  • 特征:与属性相同,描述样本的维度(如面积、房龄、位置)
  • 属性值:某一属性的具体值(如100平方米、5年)
  • 属性空间:属性可能的所有取值范围(如面积[0, 1000]平方米)
  • 样本空间:数据集中的所有可能样本的集合
  • 输入空间:模型训练时的输入数据的所有可能取值,通常不包括目标变量(标签)
  • 特征向量:将样本的各个特征值组合成的一个数学向量(如[100, 5, 0]

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;