逻辑回归算法

2019-09-02 02:02:42

分类问题及其示意形式

为什么需要逻辑回来算法

好比要对一个图片进行分类，判断图片里是否包含汽车。包含汽车的展望值为 1 。不包含汽车

的展望值为 0 。这种分类问题的值是离散的，若是用 linear regresstion 来作为分类问题的预

测函数是错误理的。因为展望出来的数值或者远小于 0 或弘远于 1。我们需要找出一个展望函

数模型，使其值的输出在 [0, 1] 之间。然后我们选择一个基准值，好比 0.5 ，若是展望值算出

来大于 0.5 就认为其展望值为 1，反之则其展望值为 0.

逻辑回来算法的展望函数

我们选择 g(z)=1/1+e−z来作为我们的展望函数。这个函数称为 Sigmoid Function 。它的图形如下：

逻辑回归算法

从图中能够看出来，当 z>0时，g(z)>0.5 。当 z 越来越大时，g(z)无限接近于 1。当 z<0

时，g(z)<0.5 。当 z 越来越小时，g(z)无限接近于 0。这正是我们想要的针对二元分类算法的

展望函数。连系我们的线性回来函数的展望函数 hθ(x)=θTx，则我们的逻辑回来模型的展望函

数如下：hθ(x)=g(θTx)=1/1+e−θTx

解读逻辑回来展望函数的输出值

hθ(x)透露针对输入值 x以及参数 θ的前提前提下，y=1的概率。用概率论的公式能够写成：

hθ(x)=P(y=1|x;θ)

上面的概率公式能够读成：在输入 x及参数 θ前提下 y=1的概率。由概率论的常识能够推导出，

P(y=1|x;θ)+P(y=0|x;θ)=1

剖断界限 Decision Boundary

从逻辑回来公式说起

逻辑回来展望函数由下面两个公式给出的：

hθ(x)=g(θTx)

g(z)=1/1+e−z

假定 y=1的剖断前提是 hθ(x)≥0.5，y=0的剖断前提是 hθ(x)<0.5，则我们可以推导出 y=1

的剖断前提就是 θTx≥0，y=0的剖断前提就是 θTx<0。所以，θTx=0即是我们的判定边界。

剖断界限

假定我们有两个变量 x1,x2，其逻辑回来展望函数是 hθ(x)=g(θ0+θ1x1+θ2x2)。假设我们给定参数θ=[-3 1 1]那么我们能够获得剖断界限 −3+x1+x2=0，即 x1+x2=3，若是以 x1为横坐标，x2为纵坐标，这个函数画出来就是一个经由 (0, 3) 和 (3, 0) 两个点的斜线。这条线就是我们的剖断界限。

逻辑回归算法

直线左下角为 y=0，直线右上解为 y=1。横坐标为 x1，纵坐标为 x2。

非线性剖断界限

若是展望函数是多项式 hθ(x)=g(θ0+θ1x1+θ2x2+θ3x21+θ4x22)，且给定

θ=[-1 0 0 1 1]则能够获得剖断界限函数x21+x22=1照样以 x1为横坐标，x2

为纵坐标，则这是一个半径为 1 的圆。圆内部是 y=0，圆外部是 y=1。

逻辑回归算法

这是二阶多项式的情形，更一样的多阶多项式能够表达出更复杂的剖断界限。

逻辑回来的成本函数

线性回来的成本函数是 J(θ)=1m∑mi=112(hθ(x(i))−y(i))2，若是我们按照线性回来的成本函数来较量逻辑回来的成本函数，那么我们最终会很或者会获得一个非凸函数 (non-convex function)，如许我们就无法经由梯度下降算法算出成本函数的最低值。

为了让成本函数是个凸函数 (convex function)，以便轻易求出成本函数的最小值，我们界说逻辑回来的成本函数如下：

Cost(hθ(x),y)={−log(hθ(x)),if y = 1

−log(1−hθ(x)),if y = 0

成本函数的解读

若是 y=1,hθ(x)=1，那么成本为 Cost=0；若是 y=1,hθ(x)→0，那么成本将是无限大 Cost→∞。

若是 y=0,hθ(x)=0，那么成本为 Cost=0；若是 y=0,hθ(x)→1，那么成本将是无限大 Cost→∞。

逻辑回来成本函数界说

因为 y∈[0,1]的离散值，能够把两个成本函数归并起来：

J(θ)=−1m[∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))]

把 y=0,y=1两种情形代入上式，很轻易能够验证成本函数归并的等价性。

梯度下降公式

我们依然使用梯度下降公式来对模型进行求解。凭据梯度下降算法的界说，我们使用下面的公式来进行参数迭代：

θj:=θj−α∂∂θjJ(θ)

这里的要害是求解成本函数的偏导数。在这之前，我们先求出 Sigmoid 函数的偏导数，以便后背能够行使上：

σ(x)′=(11+e−x)′=−(1+e−x)′(1+e−x)2=−1′−(e−x)′(1+e−x)2

=0−(−x)′(e−x)(1+e−x)2=−(−1)(e−x)(1+e−x)2=e−x(1+e−x)2

=(11+e−x)(e−x1+e−x)=σ(x)(+1−1+e−x1+e−x)

=σ(x)(1+e−x1+e−x−11+e−x)

=σ(x)(1−σ(x))

推导出来的这个公式将鄙人面用上，如今我们能够来较量成本函数的偏导数了：

逻辑回归算法

最终获得梯度下降算法进行参数迭代的公式如下：

θj=θj−α1m∑i=1m(hθ(x(i))−y(i))x(i)j

这个公式的形式和线性回来算法的参数迭代公式是一般的。当然，因为这里 hθ(x)=11+e−θTx，而线性回来算法里 hθ(x)=θTx。所以，两者的形式一般，但数值较量完全分歧。

算法优化

梯度下降算法的效率是对照低，优化的梯度下降算法有 Conjugate Gradient, BFGS, L-BFGS 等。这些算法对照复杂，实现这些算法是数值较量专家的工作，一样工程人员只需要也许知道这些算法是怎么优化的以及怎么使用这些算法即可。

octave 里供应了 fminunc 函数，能够查阅文档来进修函数用法，从而学会使用优化过的梯度下降算法，以提高较量效率。

多元分类算法

除了二元分类算法外，还有多元分类问题，好比需要给邮件打标签，则或者有多个标签需要考虑。这个时候需要使用 one-vs-all (one-vs-rest) 的方式。即把要分类的一种类别和其他所有类别区分隔来的，如许就把多元分类问题转化为二元分类问题，如许就能够使用上文总结的所有二元分类问题的算法。

针对 y=i，求解针对 i 的展望函数 h(i)θ(x)。若是有 n 个类别，则需要求解 n 个展望函数。

上一篇：淘宝电商：为什么很多人淘宝做不起来？
下一篇：这几类蚂蚁借呗用户将会被停用，看看有没有你

逻辑回归算法

热门文章

小编推荐