Logistic Regression 即逻辑回归,是一种广泛应用于机器学习和数据挖掘领域的有监督学习算法,以下从原理、应用、算法优缺点等方面进行介绍:
基本原理
线性回归基础:逻辑回归基于线性回归模型,其基本形式为:
z = w 1 x 1 + w 2 x 2 + ⋯ + w n x n + b z = w_1x_1 + w_2x_2 + \cdots + w_nx_n + b z=w1x1+w2x2+⋯+wnxn+b
其中 x i x_i xi是特征变量, w i w_i wi是对应的权重, b b b是偏置项。
Sigmoid 函数:为了将线性回归的结果映射到分类任务上,逻辑回归引入了 Sigmoid 函数:
S ( z ) = 1 1 + e − z S(z)=\frac{1}{1 + e^{-z}} S(z)=1+e−z1
该函数可以将 z z z值映射到 0 0 0到 1 1 1之间的概率值,用于表示样本属于某一类别的可能性。
决策边界:通过设定一个阈值(通常为 0.5 0.5 0.5)来确定样本的类别。若 S ( z ) ≥ 0.5 S(z) \geq 0.5 S(z)≥0.5,则将样本归为正类(通常标记为 1 1 1);若 S ( z ) < 0.5 S(z) < 0.5 S(z)<0.5,则归为负类(通常标记为 0 0 0)。
损失函数
逻辑回归常用的损失函数是对数损失函数(Log Loss),也称为交叉熵损失函数。
公式定义
对于单个样本 ( x i , y i ) (x_i, y_i) (xi,yi),其中 x i x_i xi是样本的特征向量, y i y_i yi是样本的真实标签( y i ∈ { 0 , 1 } y_i\in\{0,1\} yi∈{ 0,1}),模型预测的概率为 y ^ i \hat{y}_i