代码之家  ›  专栏  ›  技术社区  ›  MitterHai

PySpark RDD SortByKey()工作不正常

  •  0
  • MitterHai  · 技术社区  · 6 年前

    我想对我拥有的一个RDD进行排序,它包含一个0-49995的键范围,这样(0,value)(49995,价值)。

    我想按升序对它进行排序,我正在使用SortByKey()函数,但它似乎无法正常工作,因为我得到的结果是:

    test0.sortByKey(真)。取(5)

    [( u'0' [u'35621',u'44891',u'14150',u'15356',u'35630',u'13801',u'13889',u'14078',u'25228',u'13805']( [u'83',u'18',u'38',u'89',u'3',u'11',u'29',u'41',u'53',u'55']( [u'42704',u'122',u'125',u'128',u'131',u'2501',u'11200',u'12049',u'12576',u'18583']( u'1000'

    它从0,1开始,然后跳到10,再跳到100,再跳到1000。它应该从0-5开始上升。有人能告诉我我做错了什么吗?

    非常感谢。

    1 回复  |  直到 6 年前
        1
  •  0
  •   Philip Kendall syonip    6 年前

    您正在对字符串进行排序-如 u 10 先于 2 当作为字符串进行测试时。