[机器学习笔记]二:Classification and logistic regression(分类和逻辑回归)

时间:2021-09-08 23:53:38

在前面我们讨论线性回归的问题,现在我们讲讨论二元分类的问题。二元分类的值是一个离散的值,仅仅为0或1.

1. Logistic regression(逻辑回归)

在讨论线性回归的时候,我们引入了评判函数。尽管我们可以用线性回归的评判函数来评判逻辑回归,但是这通常不会取得好的效果,因此我们将使用新的评判函数

(1) g ( z ) = 1 1 + e z z = θ T x

我们称这个函数为logistic function或sigmoid function.对g(z)求导,可以得到
(2) g ( z ) = g ( z ) ( 1 g ( z ) )

可以得到
(3) p ( y | x ; θ ) = ( h θ ( x ) ) y ( 1 h θ ( x ) ) 1 y

那么评判z参数的似然函数为
(4) L ( θ ) = i = 1 m ( h θ ( x ( i ) ) ) y ( i ) ( 1 h θ ( x ( i ) ) ) 1 y ( i )


(5) l ( θ ) = l o g L ( θ )

我们可以推导出
1)当 l ( θ ) 取得最大值时, L ( θ ) 取得最大值
2) θ j l ( θ ) = ( y h θ ( x ) ) x j
根据这个,我们可以得出梯度下降的规则。

2. Digression: The perceptron learning algorithm

我们前面的函数的值都是连续的,而事实上我们需要一些离散的值,那么只要制定一个分界线,其上为1,其下为0,就能实现这个需求。

3. Another algorithm for maximizing l ( θ )

现在我们要介绍牛顿法,用来求最大似然值,牛顿法的总体思想,是不断进行 θ = θ f ( θ ) f θ ,迭代的结果便是 f ( θ ) = 0
当然,我们前面的 θ 是一个向量,因此不能直接代入牛顿法中求值,因此我们要推广牛顿法,推广后的牛顿法公式如下:

(54) θ = θ H 1 θ l ( θ )

其中
(55) H i j = 2 l ( θ ) θ i θ j