Bootstrap

大数据计算里的Broadcast Hash Join/Shuffle Hash Join/Sort Merge Join

Broadcast Hash Join

场景

大表和小小表,直接把B表加载到内存,然后读块1内容和内存中数据匹配
在这里插入图片描述

Shuffle Hash Join

场景

大表和小表JOIN ,小表分块后能加载到内存里,这样只用依次读红块1就行

在这里插入图片描述

Sort Merge Join

场景

大表和大表JOIN ,这样两个即使不能加载到内存里,也可以分别读两个文件,依次匹配记录,具体算法可以参考,两个有序数组的合并,和这个类似
在这里插入图片描述

;