参考:https://blog.csdn.net/weixin_43495317/article/details/103943957
https://www.cnblogs.com/krcys/p/9121487.html
https://zhuanlan.zhihu.com/p/107793995
1、概念介绍
简介:
水塘抽样是一种随机抽样算法,它能够在一个很大的集合中,抽取一部分样本,并保证每个样本的选取概率都是相等并随机的。
特点:
1、选取集合可以非常大,甚至不知道边界。
2、每个样本的选取随机且概率相等。
3、时间复杂度较低,O(n),节省内存。
适用场景:
1、在一些非常大的集合,或者未知大小的集合,不知道边界的集合,不知道文件总行数的情况下,随机抽取k个元素。
2、保证每个元素抽取都是均匀随机的并且概率相等。
3、尽量高效,节省内存地抽取
2、常见问题场景
很多大公司的面试题都考察过这个算法,下面介绍几个这样的例题
问题一:
问题:我有一个长度为N的单链表,N的值非常大,我不清楚N的确切值.我怎样能写一个尽可能高效的算法来返回链表中K个完全随机的数. 要求: 1、只能遍历一次链表 2、返回的值要均匀随机,每个的概率要相等
一般的想法就是,我先遍历一遍链表,得到链表的总长度 n,再生成一个 [1,n] 之间的随机数为索引,然后再遍历链表,找到索引对应的节点,不就是一个随机的节点了吗?
但题目说了,只能遍历一次,意味着这种思路不可行。题目还可以再泛化,给一个未知长度的序列,如何在其中随机地选择 k 个元素?想要解决这个问题,就需要著名的水塘抽样算法了。
问题二:
问题:我们有1T的文本文件存在硬盘中,想随机抽取几行,需要保证尽可能少得使用内存并且能够完全随机。
之前想到的加载到内存就不太适合了,但是还可以想到别的办法,比如每次读取一行记录加载到内存,记数+1,清空内存中行数据,直到最后统计一共多少行,然后根据总行数来计算K个随机数.如何再取回行对应的数据呢?我们可以再遍历一遍,一边遍历一边记录这一行的号码是不是在k个随机数中,如果是,则将该行内容保留.
这样的话遍历两次应该可以做到,但是1T数据遍历两次的时间消耗是非常高的.
所以还有更好的方案吗,那就是水塘抽样算法.
问题三:
问题:给定一个数据流,数据流长度N很大,且N直到处理完所有数据之前都不可知,如何在只遍历一遍数据(O(N))的情况下,能够随机选取出这组数据的k个概率相等的均匀抽样。 要求: 1、仅扫描数据一次 2、空间复杂度为O(N),空间复杂度与整个数据量无关,只与抽样大小有关。 3、扫描到数据的前n个数据时(n>k),保存当前已扫描数据的k个均匀抽样。
根据要求,首先体积很大内存一次装不下,不能直接不能直接取N内的k个随机数,因为N的长度是未知的。此外也不能采用不能先遍历一遍,然后分块存储数据,再随机选取。最后要求是数据选取绝对随机的保证。
可以采用水塘抽样算法:
3、水塘抽样算法原理
问题切入:
给定一个数据流,数据流长度N很大,如何从中随机选取k个数据,并且要保证每个数据被抽取到的概率相等。
注意:数据流长度N很大,内存无法加载全部数据
算法思路分析
对这个问题,如何做到均匀随机,概率相等呢?我们以什么样的方式去抽取样本呢?
首先N很大,不知道长度,所以我们无法调用random(N)来取一个1-N之间的随机数,我们只能将元素一个一个遍历加载进入内存。
比如我们已经遍历了i个元素,可以从这i个元素中随机取了一个元素a,那如果现在再给你一个新元素b,你是继续留着a呢?还是抽取b作为样本结果呢?以什么样的原则来选择a和b呢?你的选择能够保证概率相等吗?
这里就用到了我们的蓄水池抽样算法。
当k = 1时
首先考虑最简单的情况,当k = 1,只取一个元素时,如何选取:
假设数据流含有N个数据,要保证每条数据被抽取到的概率相等,那么每个数被抽取的概率应该为1/N
当遇到第1个数的时候,概率为1,直接保留第一个数为样本。
当遇到第2个数的时候,概率为1/2,第1个数和第2个数各有1/2的概率被保留。
当遇到第3个数的时候,3被保留的概率为1/3;(之前剩下的数假设1被保留),2/3的概率 1 被保留,(此时1被保留的总概率为 2/3 * 1/2 = 1/3)
当遇到第4个数的时候,4被保留的概率为1/4,(之前剩下的数假设1被保留),3/4的概率 1 被保留,(此时1被保留的总概率为 3/4 * 2/3 * 1/2 = 1/4)
…
当遇到第i个数的时候,i被保留的概率为1/i,之前的样本数保留不被替换的概率也为1/i
所以,依次类推,每个数被保留的概率都是1/N。
通过以上规律可以看出,对于k = 1的情况,数据流中第i个数被保留的概率为1/i,只要采取这种策略,只需要遍历一遍数据流就可以得到采样值,并且保证所有数据被选中的概率均为1/N
算法总结:
水塘采样算法总结: 也就是说,在取第i个数据的时候,生成一个0到1的随机数p,如果p < k / i,替换池中任意一个数替换为第i个数;当p > k / i,继续保留前面的数。直到数据流结束,返回此k个数。但是为了保证计算准确性,一般是生成一个0到i的随机数,跟k相比。
4、水塘抽样算法实现
算法图解:
当K=1时:
如果K=1,即每次只取一个样本值,那么逐个遍历数组,当遇到第i个数时,就以 1 / i 的概率抽取它做样本值,以(i - 1)/ i 的概率保留原来的样本值,不替换。
算法原理如下图:
当K > 1时:
如果k > 1,即要从数据流N中取K个样本值,那么要保证每条数据被抽取到的概率相等,每个数被抽取的概率必然是K / N
算法实现:对于前K个数,全部保留,作为样本集合。对于第i (i > k)个数,则以k/i 的概率抽取第i个数,并以1/k 的概率与前面已经选择的k个数中的任意一个替换。
算法原理如下图:
代码实现(java)
当K=1时:
/** * 当k = 1时,即只取1个数 * * 算法步骤: * 1、遍历集合第1个元素,直接取出,作为样本数sample * 2、从集合第2个元素开始,使用下标 i 标记遍历的第几个元素。取一个随机数 rand = random【1,i】 * 如果 rand == 1,则开始替换,即将当前样本元素,替换为当前遍历集合N中第i个元素。即sample = N[i] * 如果 rand > 1,则不替换,保留之前样本元素。 * 3、继续往下迭代遍历,直到结束。最终样本为sample。 */ public class ReservoirSampingTest { public static void main(String[] args) { // 定义我们要遍历的集合,原则上是无限大,我们这里简化为6个元素。 int[] data = {1, 2, 3, 4, 5, 6}; // 只取一个元素,所以直接定义一个变量,初始化样本值 int sample = 0; // 调用抽样算法,获取样本 sample = reservoirSamping(sample, data); System.out.println("最终的样本为:" + sample); } /** * 采样算法 * @param sample 返回的采样的数 (k=1时,这里不传也可以) * @param data 遍历的大集合 * @return 返回采样的结果 */ public static int reservoirSamping(int sample, int[] data) { // 第一个元素,直接取出 sample = data[1]; for (int i=1; i<data.length; i++) { // 定义一个随机数,范围为[1, i],注意Random是左闭右开,所以要加1才能把i包括进去 int rand = new Random().nextInt(i) + 1; // 此时随机数范围最小为1,不是0,所以当随机数等于1时,则替换为当前数 if (rand == 1) { sample = data[i]; } } // 返回采样的结果 return sample; } }
当K>1时,取k个数
跟我们上面的算法思想是一致的,只是把k=1,替换为了k=k
即概率为P = k / i
/** * 当k > 1时,取k个数 * 算法步骤: * 1、遍历集合前k个元素,直接取出,作为样本集合sample[] * 2、从集合第K+1个元素开始,使用下标 i 标记遍历的第几个元素。取一个随机数 rand = random【1,i】 * 如果 rand < k,则开始替换,即将当前样本集合sample中第rand个元素,替换为当前遍历集合N中第i个元素。即 sample[rand] = N[i] * 如果 rand > k,则不替换,保留之前样本集合sample中的元素。 * 3、继续往下迭代遍历,直到结束。最终获得k个元素的样本。 */ public class ReservoirSampingTest { public static void main(String[] args) { // 定义我们要遍历的集合,原则上是无限大,我们这里简化为10个元素。 int[] data = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}; // 定义我们需要抽样的样本集合,假设k=5,抽取5个元素 int[] sample = new int[5]; // 调用抽样算法,获取样本 sample = reservoirSamping(sample, data); // 打印最终的样本集合 for (int s : sample) { System.out.println("样本元素:" + s); } } /** * 水塘抽样算法 * @param sample 要采集的样本集合 * @param data 需要遍历大集合 * @return 返回抽样后的样本集合sample */ public static int[] reservoirSamping(int[] sample, int[] data) { // 假设k为样本集合的大小 int k = sample.length; // 前k个元素,直接取出,放到sample中 for (int i=0; i<k; i++) { sample[i] = data[i]; } // 从第K+1个元素开始,根据算法随机置换sample中的元素 for (int i=k; i<data.length; i++) { // 取得[1, i]之间的随机数,注意Random是左闭右开,所以要加1才能把i包括进去 int rand = new Random().nextInt(i) + 1; // rand小于k,则开始置换,将sample中第rand个元素,替换为data中第i个元素 if (rand < k) { sample[rand] = data[i]; } } // 遍历一遍,采样完成,返回样本集合sample return sample; } }
5、LeetCode中算法案例
【382. 链表随机节点】:https://leetcode-cn.com/problems/linked-list-random-node/
题解查看:https://www.cnblogs.com/doublexi/p/15666056.html
【398. 随机数索引】:https://leetcode-cn.com/problems/random-pick-index/
题解查看:https://www.cnblogs.com/doublexi/p/15666221.html
6、spark分区器(水塘采样应用案例)
最近在学习spark的分区器的时候,发现一个很有意思的东西水塘采样算法,又称蓄水池抽样算法。
spark的分区器主要有三种:
(只有key-value类型的RDD才有分区器,Value类型的RDD分区器的值是None。)
1、HashPartitioner:数据分区规则为 partitionId = Key.hashCode % numPartitions。
特点:采用哈希的方式将同一类型的Key分配到同一个Partition中。
但是当某个key特别多时,容易导致某个分区数非常多,导致各个分区数据不均匀,形成数据倾斜。
2、RangePartitioner:将一定范围内的数映射到某一个分区内。分区与分区之间数据是有序的,但分区内的元素是不能保证顺序的。sortByKey会使用RangePartitioner。
特点:能够尽量保证每个分区中数据量的均匀。(主要用于数值类型)
3、自定义分区器。
你可以通过partitionBy来指定自己想要用哪种分区器。
关于RangePartitioner:
现在的问题:
在RangePartitioner中,在执行分区之前其实并不知道数据的分布情况,不知道数据的总量,不知道数据的范围边界(这个边界很重要),也不知道数据分布在哪个范围。
那我们就很难给数据分区,把哪些数据,或者是哪一段范围的数据分配到对应分区,从而保证各个分区的数据量都比较均匀。因为不知道数据的分布范围,不好给数据划分边界,也不好分区。
这时,就可以用到水塘采样算法了。
RangePartitioner在分区的时候,不知道数据总量,数据分布情况,但是它需要知道这些去划分分区后的边界。所以它会调用水塘采样算法,返回RDD的总采样数据量,分区ID和,每个分区数据总量,每个分区的采样数据。
RangePartitioner中是对水塘采样算法,进行了变种和加强,有兴趣的可以参考:
https://www.cnblogs.com/tongxupeng/p/10435976.html
它的主要步骤为:
1、计算总体的数据抽样大小sampleSize,计算规则是:至少每个分区抽取20个数据或者最多1M的数据量。
2、根据sampleSize和分区数量计算每个分区的数据抽样样本数量最大值sampleSizePrePartition
3、根据以上两个值进行水塘抽样,返回RDD的总采样数据量,分区ID和,每个分区数据总量,每个分区的采样数据。
4、 数据抽样完成后,需要对不均衡的Partition重新进行抽样,默认当Partition中包含的数据量大于平均值的三倍时,该Partition是不均衡的。当采样完成后,利用样本容量和RDD中包含的数据总量,可以得到整体的一个数据采样率fraction。利用此采样率对不均衡的Partition调用sample算子重新进行抽样。(此时,各个分区的数据规模已经知道了,就没必要再水塘采样了,直接调用sample算子二次采样)
5、根据各个分区的key与权重值,调用determineBounds方法计算出步长与边界
6、计算每个Key所在Partition:当分区范围长度在128以内,使用顺序搜索来确定Key所在的Partition,否则使用二分查找算法来确定Key所在的Partition。