这需要很多时间-几个小时甚至几天。在此期间,我希望能够查询培训师并查看其当前状态,特别是:
一种方法是明确地告诉培训师在每次迭代后打印调试消息。但是,这些信息只能在我运行培训师的控制台上使用。由于培训时间太长,我希望能够从不同的计算机上远程查询培训师的状态。
有没有办法远程查询跑步教练的状态?
所有日志都可以在Amazon Cloudwatch中找到。您可以通过编程方式或通过API查询CloudWatch来解析日志。
TensorBoard .
此外,您可以使用 describe training job
import sagemaker sm_client = sagemaker.Session().sagemaker_client print(sm_client.describe_training_job(TrainingJobName='You job name here'))