动态规划：编辑距离

编辑距离（Edit Distance），又称为莱文斯坦距离（Levenshtein Distance），是衡量两个字符串之间的相似度的一种重要算法。具体来说，它计算从一个字符串转换到另一个字符串所需的最少操作次数。常见的操作包括插入一个字符、删除一个字符和替换一个字符。编辑距离算法在机器翻译、语音识别和拼写纠错等领域有广泛应用。

题目

思路

解题过程

题目

给两个单词 word1 和 word2， 请返回将 word1 转换成 word2 所使用的最少操作数 。你可以对一个单词进行如下三种操作：

插入一个字符
删除一个字符
替换一个字符

示例 1：

输入：word1 = "horse", word2 = "ros"
输出：3
解释：
horse -> rorse (将 'h' 替换为 'r')
rorse -> rose (删除 'r')
rose -> ros (删除 'e')

示例 2：

输入：word1 = "intention", word2 = "execution"
输出：5
解释：
intention -> inention (删除 't')
inention -> enention (将 'i' 替换为 'e')
enention -> exention (将 'n' 替换为 'x')
exention -> exection (将 'n' 替换为 'c')
exection -> execution (插入 'u')

提示：

0 <= word1.length, word2.length <= 500
word1 和 word2 由小写英文字母组成

思路

这个问题是典型的动态规划问题，可以使用二维动态规划数组dp来解决。其中dp[i][j]表示将word1的前i个字符转换成word2的前j个字符所需的最少操作数。我们需要初始化边界条件，然后填充整个dp表。

对于每个dp[i][j]，我们有三种情况可以考虑：

如果word1[i-1] == word2[j-1]，即当前字符相同，那么不需要任何操作，dp[i][j] = dp[i-1][j-1]。
如果不相同，我们可以选择删除word1的第i个字符，这对应于dp[i-1][j] + 1（即删除操作）。
或者我们可以在word1的第i个位置插入word2的第j个字符，这对应于dp[i][j-1] + 1（即插入操作）。
或者我们可以将word1的第i个字符替换为word2的第j个字符，这对应于dp[i-1][j-1] + 1（即替换操作）。

我们需要取这三种情况中的最小值。

换一种说法：

想象你是一位文字编辑，你的任务是将一篇手稿（我们称之为word1）修改成另一篇最终版本（我们称之为word2）。在这个过程中，你有三种工具可以使用：

插入笔：这支笔能让你在手稿的任何位置插入一个字符，以匹配最终版本。
删除橡皮擦：这个橡皮擦能擦除手稿上的任何字符，以消除不需要的部分。
替换墨水：这个特殊的墨水可以让你将手稿上的某个字符替换成另一个字符，以匹配最终版本。

你的目标是使用最少的操作次数（即最少的笔划、橡皮擦擦除和墨水替换）来完成这个任务。

解题过程

初始化

创建一个二维数组dp，大小为(len(word1) + 1)×(len(word2) + 1)，并初始化为0。注意这里我们让数组的大小比单词长度多1，是为了方便处理空字符串的情况。
初始化第一行和第一列，表示将一个空字符串转换成另一个字符串（或相反）所需的操作数，即字符串的长度。

填充DP表

对于D[i][j]的计算，要考虑三种情况：

插入操作：在word1的第i个位置之前插入word2的第j个字符，这等价于计算D[i][j-1] + 1（即在word1的前i个字符与word2的前j-1个字符之间的编辑距离基础上加1）。
删除操作：删除word1的第i个字符，这等价于计算D[i-1][j] + 1（即在word1的前i-1个字符与word2的前j个字符之间的编辑距离基础上加1）。
替换操作：如果word1的第i个字符与word2的第j个字符不同，则替换它，这等价于计算D[i-1][j-1] + 1。如果它们相同，则不需要替换，直接继承D[i-1][j-1]的值。

结合上述操作，状态转移方程为：

$D[i][j] = \min(D[i-1][j] + 1, D[i][j-1] + 1, D[i-1][j-1] + cost)$

其中，cost 为 0（如果 A[i-1] == B[j-1]）或 1（如果 A[i-1] != B[j-1]）。

边界条件

如果字符串 A 为空，则 D[0][j] = j，因为我们需要 j 次插入操作。
如果字符串 B 为空，则 D[i][0] = i，因为我们需要 i 次删除操作。
两个字符串都为空时，编辑距离为0，因为它们已经相同

返回结果

返回dp[len(word1)][len(word2)]，即将整个word1转换成整个word2所需的最少操作数。

复杂度

时间复杂度

O(m * n)，其中m和n分别是word1和word2的长度。因为我们需要填充一个m+1 x n+1的二维数组。

空间复杂度

O(m * n)，同样是因为需要一个m+1 x n+1的二维数组来存储中间结果。

code

class Solution(object):
    def minDistance(self, word1, word2):
        m, n = len(word1), len(word2)
        dp = [[0] * (n + 1) for _ in range(m + 1)]
    
        # 初始化第一行和第一列
        for i in range(m + 1):
            dp[i][0] = i
        for j in range(n + 1):
            dp[0][j] = j
    
        # 填充 DP 表
        for i in range(1, m + 1):
            for j in range(1, n + 1):
                if word1[i - 1] == word2[j - 1]:
                    dp[i][j] = dp[i - 1][j - 1]
                else:
                    dp[i][j] = min( dp[i - 1][j] + 1,  # 删除
                                    dp[i][j - 1] + 1,  # 插入
                                    dp[i - 1][j - 1] + 1)  # 替换
    
        return dp[m][n]