代码之家  ›  专栏  ›  技术社区  ›  Erel Segal-Halevi

在SageMaker训练时看管它

  •  2
  • Erel Segal-Halevi  · 技术社区  · 7 年前

    这需要很多时间-几个小时甚至几天。在此期间,我希望能够查询培训师并查看其当前状态,特别是:

    • 完成培训需要多长时间?
    • 理想情况下,我希望使用当前迭代的模型对测试样本进行分类,以查看其当前性能。

    一种方法是明确地告诉培训师在每次迭代后打印调试消息。但是,这些信息只能在我运行培训师的控制台上使用。由于培训时间太长,我希望能够从不同的计算机上远程查询培训师的状态。

    有没有办法远程查询跑步教练的状态?

    1 回复  |  直到 7 年前
        1
  •  3
  •   Gili Nachum    7 年前

    所有日志都可以在Amazon Cloudwatch中找到。您可以通过编程方式或通过API查询CloudWatch来解析日志。

    TensorBoard .

    此外,您可以使用 describe training job

    import sagemaker
    sm_client = sagemaker.Session().sagemaker_client
    print(sm_client.describe_training_job(TrainingJobName='You job name here'))
    
    推荐文章