代码之家  ›  专栏  ›  技术社区  ›  NETkuz

而不是解析时的数字(抓取)

  •  1
  • NETkuz  · 技术社区  · 2 年前

    下午好 尝试解析类似页面时 https://www.dongchedi.com/usedcar/12441930 页面代码显示的不是价格数字

    item image

    <p class="jsx-1166026127 tw-text-color-red-500 tw-font-semibold tw-text-20 xl:tw-text-24 tw-leading-32 xl:tw-leading-36 font-zmQZz5CrbrbHudeQ">.</p>
    

    当你试图从侧面复制一个数字时,会复制而不是数字。

    你知道为什么会这样吗?以及如何获得价格。

    我假设价格是由java脚本生成的,并在某个时刻被替换。但这些数字不在页面代码中。json包含与价格无关的值。

    1 回复  |  直到 2 年前
        1
  •  2
  •   Mous    2 年前

    这个页面太狡猾了。

    那个 p 元素具有 font-zmQZz5CrbrbHudeQ 班找到这个类的定义位置(内联),我们得到以下CSS:

    .font-zmQZz5CrbrbHudeQ {
      font-family:zmQZz5CrbrbHudeQ;
    }
    

    看起来字体将这些奇怪的字形显示为数字。

    以下是信件:

    性格 Unicode
    1. U+E53D
    2. U+E3F0
    3. U+E422
    4. U+E42C
    5. U+E49C
    6. U+E42B
    7. U+E4FE
    8. U+E548
    9 U+E4C8
    0 U+E453
    U+E45F

    您可以使用上表将无法读取的字符转换为普通数字。