教练的专题,第一题模板题,第二题多校题,话说这题真的想了好久,后缀数组的用法真的太多了。。。
感觉很多时候都需要用二分来求解。特别这道题,感觉简直把二分运用到了极致。。。
题目大意:
给你一个串,求它所有子串的第k大(可重复)。
解题思路:
这道题目,首先我们要根据我们求出来的sa数组,因为我们sa数组是按字典序排好序的,所以理论上来说我们最小的子串应该是按照sa数组的顺序来的,但是这里要考虑当前i 和 i+1 的公共前缀。例如 BBC 正常来说 sa[1] 应该是 0,但是排第二小的不是BB而是B。因为公共前缀的关系,所以我们这里可以写一个函数处理出 从第一个 sa 到 pos个sa 一共包括多少个子串,函数部分在此不赘述了,可以看代码,会注释清楚,看代码应该比较容易理解。
这样的话通过上述的二分我们可以找到一个pos 即我们要找的答案应该在sa[pos]这里的后缀中。
这里找到以后,我们可以把k处理一下,减去之前的sa[pos-1],即找到sa[pos]中的第k大。
接下来我们又需要借助二分的力量,因为我们已经确定了我们答案的左边界,接下来要做的就是确立右边界,这时二分右边界,找出我们当前的右边界有多少子串,是否大于k,最后找出右边界即可。
大体思路是这样,但是代码中有许多细节需要注意一下。
其次这种第k大串还有一种求法,即优先队列,每次先将所有的单字符丢进去,然后取出最小的,加上它后面的字符再丢进去,进行k次这样的操作,取出的即是第k大串