代码之家 › 专栏 › 技术社区 › Josh.F

如何使用TensorFlow的调试器来解决“入门”示例中的分歧?

tensorflow python

Josh.F · 技术社区 · 7 年前

我跟特遣部队在一起 Getting Started ,我们在线性模型上做一个简单的梯度下降,对它做一个小的调整,会导致一个问题,我将其用作学习tf调试器的测试用例。这是密码来自开始 :

import tensorflow as tf
from tensorflow.python import debug as tf_debug

sess = tf.Session()
# sess = tf_debug.LocalCLIDebugWrapperSession(sess)

W = tf.Variable([.3], tf.float32)
b = tf.Variable([-.3], tf.float32)
x = tf.placeholder(tf.float32)
model = W * x + b
y = tf.placeholder(tf.float32)
sq_deltas = tf.square(model - y)
loss = tf.reduce_sum(sq_deltas)

init = tf.global_variables_initializer()
sess.run(init)

optimizer = tf.train.GradientDescentOptimizer(0.01)
train = optimizer.minimize(loss)

for i in range(1000):
    sess.run(train, {x: list(range(1, 8)),
                     y: list(range(0, -7, -1))})

out = sess.run([W, b])

现在 W 和 b 有分歧:

>>> print(out)
[array([nan], dtype=float32), array([nan], dtype=float32)]

通知 sess.run(train, ...) 我的示例使用7个示例的数据集,而它们的示例使用4个示例:

{
  x : np.array([1., 2., 3., 4.]),
  y : np.array([0., -1., -2., -3.])
}

梯度正在发散,所以如果我使用这个,它可以再次正确地解决问题,尽管速度很慢:

optimizer = tf.train.GradientDescentOptimizer(0.001)

所以我可以跳到调试模式:

python -m mything.py --debug
> run # runs sess.run(init)
> run -f has_inf_or_nan # runs gradient descent, filters for inf/nan
  # Square:0 was found to have inf
> pt Square:0 # all at or approaching inf
> ni Square # I'm not sure what do do with this
> ni -t Square # buried in the output, my code line:
  # sq_deltas = tf.square(model - y)

但现在我迷路了,调试器对我来说仍然有点难以捉摸。

1)我如何找到这些的来源 inf S,而且重要的是,2)我做了什么,使这个简单的线性模型不能扩展到更大的数据集?

1 回复 | 直到 7 年前

MWB 7 年前

1)我如何追踪这些INF的来源,

除非有实际的错误,否则优化的发散就是你所说的“紧急行为”。它不会在代码的一个错误步骤中发生。这些参数只是越来越远离它们的最佳值。

2)如果这个简单的线性模型不能扩展到更大的数据集,我该怎么做呢?

对于学习率的某些值,SGD通常是不同的。这就是算法的本质。这些值取决于模型、初始值和数据集。你只是在观察后者。

在您的案例中,数据的比例发生了变化。

推荐文章

albert · AttributeError:“str”对象没有属性“str”如何解决此问题

3 年前

Anshuman Sinha · 将tensforflow中的所有nan值转换为零

3 年前

CoccoSyn · Keras TypeError:其中一个输入没有可接受的类型。具有参差不齐张量的LSTM

3 年前

rob me of my freedom · 在不使用Y_pred和Y_actual的tensorflow中编写自定义损失

3 年前

Chris · 如何捕获导入脚本功能的打印

3 年前

Jay Bhie Santos · 剩余GRU:ValueError:输入具有不兼容的形状。收到的形状(5)和(24)

3 年前

Danijel · C中TensorFlow模型文件的路径?

3 年前

Joseph · 重塑BatchDataset训练模型的输入-Tensorflow

3 年前

Arya Anish · tensorflow安装中面临的问题

3 年前

so beautiful memory · 如何将我在本地训练的tensorflow模型正确部署到谷歌云人工智能平台?我部署了它,但没有图像返回

3 年前