假设现在我们面临这样一个问题:有一个文本串S,和一个模式串P,现在要查找P在S中的位置,怎么查找呢?
我们可以利用双指针的方式进行匹配但这时一个非常消耗时间的问题出来了,一旦失配应该怎么匹配,这时今天的主角就要登场啦,我们可以设一个数组用于记录在失配点之前有多少个点是可以直接继续匹配的,比如说对“123121”进行匹配“12312312”当匹配到第二个3的时候适配这时的失配点的之前123是可以用的,不妨我们可以这样想能够继续用的部分即是其开始匹配的地方在后方重复的地方的即可以看成其前缀和后缀,那么失配时,模式串向右移动的位数为:已匹配字符数 - 失配字符的上一位字符所对应的最大前缀后缀相等长度值,于是我们可以定义一个next数组。
next 数组各值的含义:代表当前字符之前的字符串中,有多大长度的相同前缀后缀。例如如果next [j] = k,代表j 之前的字符串中有最大长度为k 的相同前缀后缀。
故KMP的主要流程是:
假设现在文本串S匹配到 i 位置,模式串P匹配到 j 位置
如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++,继续匹配下一个字符;
如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j]。此举意味着失配时,模式串P相对于文本串S向右移动了j - next [j] 位。
换言之,当匹配失败时,模式串向右移动的位数为:失配字符所在位置 - 失配字符对应的next 值(next 数组的求解会在下文的3.3.3节中详细阐述),即移动的实际位数为:j - next[j],且此值大于等于1。
KMP模板:
#include<stdio.h>
#include<algorithm>
#include<cstring>
#include<cmath>
#include<iostream>
#define N 100005
using namespace std;
int n,m;
int a[N];
int b[N];
int i,j;
///找k的位置使b是a的子串
int next[N];
void makenext(int *str, int *next, int len)
{
next[0] = -1;//next[0]初始化为-1,-1表示不存在相同的最大前缀和最大后缀
int k = -1;//k初始化为-1
for (int q = 1; q <= len-1; q++)
{
while (k > -1 && str[k + 1] != str[q])//如果下一个不同,那么k就变成next[k],注意next[k]是小于k的,无论k取任何值。
{
k = next[k];//往前回溯
}
if (str[k + 1] == str[q])//如果相同,k++
{
k = k + 1;
}
next[q] = k;//这个是把算的k的值(就是相同的最大前缀和最大后缀长)赋给next[q]
}
}
int KMP(int *str, int slen, int *ptr, int plen)
{
int *next = new int[plen];
makenext(ptr, next, plen);//计算next数组
for(int i=0;i<=n;i++)
{
printf("%d ",next[i]);
}
printf("\n");
int k = -1;
for (int i = 0; i < slen; i++)
{
while (k >-1&& ptr[k + 1] != str[i])//ptr和str不匹配,且k>-1(表示ptr和str有部分匹配)
k = next[k];//往前回溯
if (ptr[k + 1] == str[i])
k = k + 1;
if (k == plen-1)//说明k移动到ptr的最末端
{
//cout << "在位置" << i-plen+1<< endl;
//k = -1;//重新初始化,寻找下一个
//i = i - plen + 1;//i定位到该位置,外层for循环i++可以继续找下一个(这里默认存在两个匹配字符串可以部分重叠)
return i-plen+1;//返回相应的位置
}
}
return -1;
}
int main()
{
int t;
scanf("%d",&t);
while(t--)
{
scanf("%d%d",&n,&m);
memset(a,0,sizeof(a));
memset(b,0,sizeof(b));
memset(next,0,sizeof(next));
for(int i=1;i<=n;i++)
{
scanf("%d",&a[i]);
}
for(int j=1;j<=m;j++)
{
scanf("%d",&b[j]);
}
int ans=KMP(a,n,b,m);
printf("%d\n",ans);
}
}