代码之家  ›  专栏  ›  技术社区  ›  Lukas Å alkauskas

指纹识别和验证html结构的最佳方法

  •  0
  • Lukas Å alkauskas  · 技术社区  · 16 年前

    3 回复  |  直到 16 年前
        1
  •  1
  •   Matt Boehm    16 年前

    你总是可以对网站的原始HTML进行哈希运算并进行比较。我相信网站可以保留一个“上次编辑”的日期,但不确定这是否总是更新的。

    编辑:我错了,这只是将网站与以前版本进行比较的一种方式,但并没有真正按照你的意思对其进行指纹识别。

        2
  •  1
  •   nikmd23    16 年前

    只是把这个扔出去:

    在该文件上创建MD5校验和并存储。然后,在将来的任何时候,您都可以重新爬网、重新创建XML、重做校验和并将其与之前的校验和进行比较。

        3
  •  0
  •   mjv    16 年前

    这种噪声或随机内容的示例是:

    • 广告内容(越来越多的广告内容被制作成网站特有的,以击败网络浏览器上的广告拦截器)