简述梯度下降算法的原理,梯度下降算法是最常用也是最有效的

　　本文将深入浅出地介绍梯度下降算法的原理，并在文末简要实现梯度下降算法(python代码实现)。

　　基本思路首先我们需要了解梯度下降算法的原理。这里我举一个简单的例子：

　　有个农民在山上砍柴，天色已晚。这个农民打算从山顶走到他在山脚下的家。由于天气原因，能见度很低，他每走一步只能看到很短的距离。在这里，让我们想想这个农民怎样才能在最快的时间内回家。在这里，这个农民可以使用梯度下降算法。答案是他每走一步都走在离自己最近的最陡的地方。好了，问题解决了。我们继续。所以假设农夫有判断最陡方向的能力，那么问题又来了。这个农民每次沿着这个最陡的方向走多少步？迈一大步，就会想家。但是，如果你走了一小步，你很可能不会在短时间内到家，所以每一步的大小也是一个至关重要的问题。

　　好了，故事到此结束。这里我想说的是，我每次走路最陡的地方就是梯度下降算法的原理，每步的大小是梯度学习算法中一个非常重要的学习速率参数。相信你看完这个会在脑子里记住一些概念。接下来，我们将首先从数学的角度解释梯度下降算法。可能有点枯燥，但是一定要坚持读下去。

　　梯度下降算法的数学原理：x1=x0y(x)x1=x0-\ alpha * \y(x)x1=x0y(x)

　　上述公式中的参数分别表示为：

　　x1:x1:下一个位置。

　　X0:当前位置当前位置。

　　\:每一步的每一步的步长(即上面文中的学习率不能太大也不能太小)

　　\y(x):上升梯度最快的方向就是最陡位置的方向。

　　这里有一个简单的例子：

　　先来一个一元函数：y (x)=x2y (x)=x2y (x)=x2然后(y(x))=2x \ delta(y(x))=2 * x(y(x))=2x。

　　我们来设定初始位置x0=1步长(学习率)=0.4 \ =0.4 =0.4。

　　根据公式x1=x0y(x)x1=x0-\ alpha * \y(x)x1=x0y(x)，有：

　　x1=1

　　x2=0.04

　　x3=0.008

　　x4=0， 0016

　　如图，经过四次运算，也就是四步，基本达到了函数的最低点，也就是山底。

　　接下来，让我们尝试一个多元示例：

　　z ( x，y)=x^2 y^2 z(x，y)=x^2 y^2 z(x，y )=x 2 y 2

　　现在用梯度下降法计算这个函数的最小值。通过观察可以发现，最小值其实是(0，0)点。但是接下来，我们会从梯度下降算法开始一步步计算这个最小值！

　　我们假设初始起点为(x，y)=(1，3)，初始学习率为=0.1 \ =0.1=0.1，则(z)=lt；2 x，2y gt；\ delta(z)=lt；2x，2ygt(z)=2x，2y

　　然后进行多次迭代：

　　最后，我们尝试用python实现梯度下降算法。这个场景是线性回归的一个简单例子。现在假设我们有一系列的点，如下图所示：

　　首先，我们定义一个成本函数，这里我们采用均方误差函数：

　　在这个公式中

　　m是数据集中的点数。

　　是一个常数，所以当计算梯度时，二次乘法会抵消这里的。自然没有多余的常系数，方便后续计算，不会影响结果。

　　Y是数据集中每个点的实际Y坐标值。

　　h是我们的预测函数。根据每个输入X，我们可以根据计算出预测的Y值，也就是从代价函数中可以看出，代价函数中有两个变量，所以是一个多变量梯度下降问题。我们可以求解成本函数的梯度，即分别对两个变量进行微分。

　　定义了成本函数和梯度，以及预测的函数形式。我们可以开始写代码了。

　　导入numpy作为点数据集的np#大小. m=20#点x坐标和虚拟值(x0，x1).X0=np.ones((m，1))X1=np.arange(1，m 1)。shape(m，1)X=np.hstack((X0，X1))# Points y-coordinate y=NP . array([3，4，5，5，2，4，7，8，11，8，12，11，13，13，16，17，18，17，19，21])。reshape(m，1)#学习率=0.01 def Error _ function(theta，X，y): 误差函数J定义 diff=np.dot(X，theta) - y return (1。/2*m) * np.dot(np.transpose(diff)，diff)def Gradient _ function(theta，X，y): 函数J定义的梯度 diff=np.dot(X，theta) - y return (1。/m) * np.dot(np.transpose(X)，diff)def gradient_descent(X，y，alpha): 执行梯度下降。 theta=np.array([1，1])。shape(2，1)gradient=gradient _ function(theta，X，Y)while not NP . all(NP . absolute(gradient)=1e-5):theta=theta-alpha * gradient gradient=gradient _ function(theta，X，Y)return theta optimal=gradient _ descent(X，Y，alpha) print (optimal:，optimal) print (error function:，error _ function (optimal，X，y) [0，0])结果如下：

　　拟合的直线如下：

　　相信看完这篇文章，你就能理解梯度下降了。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读