Bootstrap

spark一个奇怪的bug

见下面代码:
val right_rdd=rightplan.execute()
val right_result=right_rdd.collect()
rightplan是一个SparkPlan,若直接collect取数据,则取到的数据集是每个分区内部的最后一条数据*分区内的总记录个数:

但是单独取InternalRow行内的数据的话,是可以取到的,真实数据集是:

collect前后取saveasTextFile()都是正确的,只有collect()取到的是错误的.很奇怪
这种情况下,所以采用副本的形式转换数据集:
val right_rdd=rightplan.execute().map(iter=>iter.copy())
val right_result=cccc.collect()
这样就可以取到真实数据集了,可能是其中的某个逻辑过程有问题,暂时没找到。


悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;