代码之家  ›  专栏  ›  技术社区  ›  Tri Nguyen

XML解析器基准测试的最佳XML数据集是什么

  •  1
  • Tri Nguyen  · 技术社区  · 7 年前

    正如标题中所述,我正在用Java对XML解析器进行基准测试,以比较它们。目前,我正在设计XML文档来运行基准测试。我正在考虑通过增加元素数量、嵌套级别、属性数量和纯文本来增加XML文档的复杂性。

    然而,我希望只有一组测试数据(而不是有许多需要时间的不同数据集)。我还考虑将解析器设置为limit(OutOfMemory异常)。

    以前有人测试过XML解析器吗?任何关于测试数据设计的建议都会很有帮助。

    1 回复  |  直到 7 年前
        1
  •  2
  •   Michael Kay    7 年前

    用于基准测试的最佳XML数据集是最能反映实际工作负载的数据集。

    不同的用户有不同的要求。有些人对解析少量非常大的文档感兴趣,有些人对解析大量非常小的文档感兴趣。有些会进行验证(使用DTD或模式),有些不会。有些会有非常密集的标记,有些会非常稀疏。一些将主要使用英语(ASCII),其他将使用亚洲语言。

    我不得不问你为什么要这样做。最慢和最快的差距不太可能超过20%。这种差异对您的业务至关重要吗?选择最快的会为您节省足够的资金来进行基准测试吗?购买一些额外的硬件(或云资源)会更便宜吗?

    我的另一个观察结果是,付出大量努力,然后得到错误答案的风险很高。我已经看到了无数已发布的绩效数据,其中测量方法中出现了基本错误。