代码之家  ›  专栏  ›  技术社区  ›  jxn

在给定时间序列数据的情况下训练回归模型的最佳方法

  •  0
  • jxn  · 技术社区  · 6 年前

    考虑到第1周和第2周的数据,我试图训练一个模型来预测第3周的数据。

    目标标签被调用 目标 .

    我不知道应该使用什么正确的特性来训练模型,因为这个问题着眼于用户的历史操作来预测他们的未来操作。

    列车数据

    id,date,week_day,target
    1,2019-01-01,1,10
    1,2019-01-02,2,6
    1,2019-01-03,3,7
    2,2019-01-01,1,8
    2,2019-01-02,1,5
    2,2019-01-03,1,4
    

    测试数据(见未来日期)

    id,date,week_day,target
    1,2019-01-10,1,15
    1,2019-01-11,2,13
    1,2019-01-12,3,8
    2,2019-01-10,1,7
    2,2019-01-11,1,7
    2,2019-01-12,1,4
    

    1)我想知道在培训数据中保留ID是否正确?我知道大多数ML问题不保留ID字段,但这个问题与 相同的 测试数据集中正在使用ID字段。

    2)我计划删除日期字段

    3 回复  |  直到 6 年前
        1
  •  1
  •   Pierre S.    6 年前

    您的问题似乎可以看作是时间序列预测。你的数据有季节性。您可以尝试以下算法,而不是执行回归 sarima

        2
  •  1
  •   avchauzov    6 年前

    1)我想知道在 培训数据?我知道大多数ML问题不保留ID字段,但是 这个问题和同一个ID字段有点不同 在测试数据集中使用。

    我看你有两种约会方式 id (在列车和试验装置中)。所以,如果这样 身份证件 表示与目标相关的内容-保留它。否则,放下它。

    2)我计划删除日期字段

    您将失去年、月、周数、日数、假日标记作为可能的功能。

    除了Sarima之外,我建议在这里尝试拟合一些回归模型。有时它们像任务一样在时间序列中工作。

        3
  •  0
  •   anand_v.singh    6 年前

    你的数据特征太少了,你可以尝试多个模型,比如皮埃尔建议的sarima,但是只有那些你可能会遇到困难的特征,我建议你尝试绘制一个相关矩阵,看看输入和输出之间是否有任何协合关系,如果没有模型可以帮助你,如果特征之间有一个协合关系。那么,只有一个模型才能学习到这种联系和概括。

    如果你不知道如何绘制一个共同关系矩阵,这个链接会很有帮助。 https://seaborn.pydata.org/examples/many_pairwise_correlations.html

    如果您不熟悉这些关系矩阵,此链接可以帮助您理解它们。 https://machinelearningmastery.com/how-to-use-correlation-to-understand-the-relationship-between-variables/

    如果您无法从链接中理解某些内容,请随时发表评论。