逻辑回归(Logistic Regression)是机器学习和统计学中广泛应用的一种分类算法,尤其适用于解决二分类问题。尽管其名称中含有“回归”,但实际上它是一种用于预测类别的模型。本文将详细介绍逻辑回归的基本概念,包括 Sigmoid 函数、几率(Odds)和对数几率(Logit)函数,并解释这些概念如何共同构建逻辑回归模型。
逻辑回归是一种预测模型,用于估计某个事件发生的概率。它常用于预测诸如一个病人是否患有某种疾病、一封邮件是否是垃圾邮件等二分类问题。逻辑回归的输出是一个介于 0 和 1 之间的概率值,通过设定一个阈值(通常为 0.5),可以将这个概率值转换为具体的分类结果。
逻辑回归的目标是找到一组模型参数,使得输入特征的线性组合通过 Sigmoid 函数转换后,能够最好地预测输出类别。
Sigmoid 函数是逻辑回归模型的核心组成部分,它将任意实数映射到 [0, 1] 之间的值,因此非常适合用来表示概率。Sigmoid 函数的公式如下:
σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1 + e^{-z}} σ(z)=1+e−z1
其中, z z z 是输入特征的线性组合,即 z = w T x + b z = \mathbf{w}^T \mathbf{x} + b z=wTx+b, w \mathbf{w} w 是权重向量, x \mathbf{x} x 是输入特征向量, b b b 是偏置项。
Sigmoid 函数的图像呈现为一个“S”形曲线,当 z z z 趋向于正无穷大时,输出趋向于 1;当 z z z 趋向于负无穷大时,输出趋向于 0。在 z = 0 z=0 z=0 时,输出为 0.5。
为了理解逻辑回归的工作原理,我们需要先了解几率(Odds)和对数几率(Logit)函数的概念。
几率(Odds)表示事件发生的概率与不发生的概率之比:
Odds = p 1 − p \text{Odds} = \frac{p}{1-p} Odds=1−pp
其中 p p p 表示事件发生的概率。例如,如果某事件发生的概率是 0.8,那么它的几率为 0.8 1 − 0.8 = 4 \frac{0.8}{1-0.8} = 4 1−0.80.8=4,意味着该事件发生的可能性是不发生的 4 倍。
对数几率(Logit)函数是几率的自然对数:
Logit ( p ) = log ( p 1 − p ) \text{Logit}(p) = \log\left(\frac{p}{1-p}\right) Logit(p)=log(1−pp)
对数几率函数将概率 p p p 映射为实数范围内的值。当 p p p 趋向于 0 或 1 时,对数几率值分别趋向于负无穷大和正无穷大。
在逻辑回归中,我们假设对数几率是输入特征的线性组合:
Logit ( p ) = w T x + b \text{Logit}(p) = \mathbf{w}^T \mathbf{x} + b Logit(p)=wTx+b
通过这个假设,我们可以从对数几率求出事件发生的概率 p p p:
p = 1 1 + e − ( w T x + b ) p = \frac{1}{1 + e^{-(\mathbf{w}^T \mathbf{x} + b)}} p=1+e−(wTx+b)1
这正是 Sigmoid 函数的形式,表明逻辑回归模型实际上是在线性模型的基础上应用了 Sigmoid 函数。Sigmoid 函数将线性组合转换为概率值,而对数几率函数则建立了线性组合与概率值之间的桥梁。
使用对数几率函数的主要原因有以下几点:
逻辑回归通过将输入特征的线性组合转换为概率值,为我们提供了一种强大的工具来处理二分类问题。通过引入对数几率函数,我们可以利用已知的线性回归技术来拟合模型参数,并通过 Sigmoid 函数将线性组合转换为概率值。这种方式不仅解决了从线性组合到概率转换的问题,还为逻辑回归模型提供了坚实的数学基础和优化策略。