|
1
|
| Fackelmann · 技术社区 · 8 年前 |
|
|
1
1
谢谢大家的回答!在阅读了@sascha response之后,我读了更多关于随机平均梯度下降的内容,我想我已经找到了这种差异的原因,事实上,这似乎是由于算法的“随机”部分。 请查看维基百科页面: https://en.wikipedia.org/wiki/Stochastic_gradient_descent
在常规梯度下降中,我们根据以下公式更新每次迭代的权重:
其中,和的第二项是成本函数的梯度乘以学习率mu。 重复此操作直到收敛,并且在相同的迭代次数后,给定相同的起始权重,始终会得到相同的结果。 在随机梯度下降中,在每次迭代中都会执行此操作:
其中,和的第二部分是 单个样本 (乘以学习率mu)。所有样本在开始时都是随机的,然后算法在每次迭代时循环遍历它们。 因此,我认为有几个因素促成了我所问的行为: (编辑请参见下面的回复)
(编辑)(这可以通过使用 random\u状态 调用fit方法时)
(编辑)(收敛条件取决于 托尔 (溶液精度)。通过修改此参数(我将其设置为1e-100),我能够获得与线性回归报告的相同的解决方案) |