编辑距离(Edit Distance),又称为莱文斯坦距离(Levenshtein Distance),是衡量两个字符串之间的相似度的一种重要算法。具体来说,它计算从一个字符串转换到另一个字符串所需的最少操作次数。常见的操作包括插入一个字符、删除一个字符和替换一个字符。编辑距离算法在机器翻译、语音识别和拼写纠错等领域有广泛应用。
目录
题目
给两个单词 word1
和 word2
, 请返回将 word1
转换成 word2
所使用的最少操作数 。你可以对一个单词进行如下三种操作:
- 插入一个字符
- 删除一个字符
- 替换一个字符
示例 1:
输入:word1 = "horse", word2 = "ros"
输出:3
解释:
horse -> rorse (将 'h' 替换为 'r')
rorse -> rose (删除 'r')
rose -> ros (删除 'e')
示例 2:
输入:word1 = "intention", word2 = "execution"
输出:5
解释:
intention -> inention (删除 't')
inention -> enention (将 'i' 替换为 'e')
enention -> exention (将 'n' 替换为 'x')
exention -> exection (将 'n' 替换为 'c')
exection -> execution (插入 'u')
提示:
0 <= word1.length, word2.length <= 500
word1
和word2
由小写英文字母组成
思路
这个问题是典型的动态规划问题,可以使用二维动态规划数组dp
来解决。其中dp[i][j]
表示将word1
的前i
个字符转换成word2
的前j
个字符所需的最少操作数。我们需要初始化边界条件,然后填充整个dp
表。
对于每个dp[i][j]
,我们有三种情况可以考虑:
- 如果
word1[i-1] == word2[j-1]
,即当前字符相同,那么不需要任何操作,dp[i][j] = dp[i-1][j-1]
。 - 如果不相同,我们可以选择删除
word1
的第i
个字符,这对应于dp[i-1][j] + 1
(即删除操作)。 - 或者我们可以在
word1
的第i
个位置插入word2
的第j
个字符,这对应于dp[i][j-1] + 1
(即插入操作)。 - 或者我们可以将
word1
的第i
个字符替换为word2
的第j
个字符,这对应于dp[i-1][j-1] + 1
(即替换操作)。
我们需要取这三种情况中的最小值。
换一种说法:
想象你是一位文字编辑,你的任务是将一篇手稿(我们称之为word1
)修改成另一篇最终版本(我们称之为word2
)。在这个过程中,你有三种工具可以使用:
- 插入笔:这支笔能让你在手稿的任何位置插入一个字符,以匹配最终版本。
- 删除橡皮擦:这个橡皮擦能擦除手稿上的任何字符,以消除不需要的部分。
- 替换墨水:这个特殊的墨水可以让你将手稿上的某个字符替换成另一个字符,以匹配最终版本。
你的目标是使用最少的操作次数(即最少的笔划、橡皮擦擦除和墨水替换)来完成这个任务。
解题过程
-
初始化
- 创建一个二维数组
dp
,大小为(len(word1) + 1)×(len(word2) + 1)
,并初始化为0。注意这里我们让数组的大小比单词长度多1,是为了方便处理空字符串的情况。 - 初始化第一行和第一列,表示将一个空字符串转换成另一个字符串(或相反)所需的操作数,即字符串的长度。
-
填充DP表
对于D[i][j]
的计算,要考虑三种情况:
- 插入操作:在
word1
的第i
个位置之前插入word2
的第j
个字符,这等价于计算D[i][j-1] + 1
(即在word1
的前i
个字符与word2
的前j-1
个字符之间的编辑距离基础上加1)。 - 删除操作:删除
word1
的第i
个字符,这等价于计算D[i-1][j] + 1
(即在word1
的前i-1
个字符与word2
的前j
个字符之间的编辑距离基础上加1)。 - 替换操作:如果
word1
的第i
个字符与word2
的第j
个字符不同,则替换它,这等价于计算D[i-1][j-1] + 1
。如果它们相同,则不需要替换,直接继承D[i-1][j-1]
的值。
结合上述操作,状态转移方程为:
其中,cost
为 0(如果 A[i-1] == B[j-1]
)或 1(如果 A[i-1] != B[j-1]
)。
-
边界条件
- 如果字符串
A
为空,则D[0][j] = j
,因为我们需要j
次插入操作。 - 如果字符串
B
为空,则D[i][0] = i
,因为我们需要i
次删除操作。 - 两个字符串都为空时,编辑距离为0,因为它们已经相同
-
返回结果
返回dp[len(word1)][len(word2)]
,即将整个word1
转换成整个word2
所需的最少操作数。
复杂度
-
时间复杂度
O(m * n),其中m和n分别是word1
和word2
的长度。因为我们需要填充一个m+1 x n+1的二维数组。
-
空间复杂度
O(m * n),同样是因为需要一个m+1 x n+1的二维数组来存储中间结果。
code
class Solution(object):
def minDistance(self, word1, word2):
m, n = len(word1), len(word2)
dp = [[0] * (n + 1) for _ in range(m + 1)]
# 初始化第一行和第一列
for i in range(m + 1):
dp[i][0] = i
for j in range(n + 1):
dp[0][j] = j
# 填充 DP 表
for i in range(1, m + 1):
for j in range(1, n + 1):
if word1[i - 1] == word2[j - 1]:
dp[i][j] = dp[i - 1][j - 1]
else:
dp[i][j] = min( dp[i - 1][j] + 1, # 删除
dp[i][j - 1] + 1, # 插入
dp[i - 1][j - 1] + 1) # 替换
return dp[m][n]