Bootstrap

机器学习里的逻辑回归Logistic Regression基本原理与应用

Logistic Regression 即逻辑回归,是一种广泛应用于机器学习和数据挖掘领域的有监督学习算法,以下从原理、应用、算法优缺点等方面进行介绍:

基本原理

线性回归基础:逻辑回归基于线性回归模型,其基本形式为:

z = w 1 x 1 + w 2 x 2 + ⋯ + w n x n + b z = w_1x_1 + w_2x_2 + \cdots + w_nx_n + b z=w1x1+w2x2++wnxn+b

其中 x i x_i xi是特征变量, w i w_i wi是对应的权重, b b b是偏置项。

Sigmoid 函数:为了将线性回归的结果映射到分类任务上,逻辑回归引入了 Sigmoid 函数:

S ( z ) = 1 1 + e − z S(z)=\frac{1}{1 + e^{-z}} S(z)=1+ez1

该函数可以将 z z z值映射到 0 0 0 1 1 1之间的概率值,用于表示样本属于某一类别的可能性。

决策边界:通过设定一个阈值(通常为 0.5 0.5 0.5)来确定样本的类别。若 S ( z ) ≥ 0.5 S(z) \geq 0.5 S(z)0.5,则将样本归为正类(通常标记为 1 1 1);若 S ( z ) < 0.5 S(z) < 0.5 S(z)<0.5,则归为负类(通常标记为 0 0 0)。

损失函数

逻辑回归常用的损失函数是对数损失函数(Log Loss),也称为交叉熵损失函数。

公式定义

对于单个样本 ( x i , y i ) (x_i, y_i) (xi,yi),其中 x i x_i xi是样本的特征向量, y i y_i yi是样本的真实标签( y i ∈ { 0 , 1 } y_i\in\{0,1\} yi{ 0,1}),模型预测的概率为 y ^ i \hat{y}_i

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;