代码之家  ›  专栏  ›  技术社区  ›  Jiew Meng

我真的需要一个新内容的爬虫?

  •  0
  • Jiew Meng  · 技术社区  · 6 年前

    2 回复  |  直到 6 年前
        1
  •  11
  •   Yuriy Bondaruk    6 年前

    如果数据是由一些键(放置在子文件夹中,如 /data/year=2018/month=11/day=2 /day=3 )在数据目录中可以通过雅典娜查询它。

    但是,如果数据没有分区或进入已经注册的分区,则不需要运行爬虫程序。

    或者运行爬虫程序,您可以通过运行 Athena command MSCK REPAIR TABLE <table> registering them manually

    在数据目录中创建表的最简单方法是运行爬虫程序。但如果你了解图式并且有耐心写作 CREATE TABLE Athena query AWS Glue console 那你也可以走那条路。

        2
  •  1
  •   markm46    6 年前

    如果您有这个模式,那么就不需要使用爬虫程序,您可能会得到更好的结果(例如,爬虫程序假设分区列是字符串)。

    正如Yuriy所说,记住运行MSCK REPAIR TABLE或手动注册新分区。

    如果添加了大量分区,MSCK可能会超时。如果有,继续运行直到它正常完成。