数据结构第11节： B树

B树是一种自平衡的树数据结构，它能够保持数据排序，并且在插入、删除和查找操作中具有对数时间复杂度。B树广泛应用于文件系统、数据库和索引中，因为它们可以有效地处理大量数据。

B树的特点：

所有叶子节点都位于同一层。
每个节点可以有多个子节点（至少两个，最多为某个特定的最大值）。
节点包含一个关键字列表，这些关键字将子树分为不同的范围。
节点的关键字数量总是小于或等于其子节点的数量减一。
每个节点的关键字都是按照升序排列的。

下面是一个Python实现的B树：

class BTreeNode:
    def __init__(self, t, leaf=False):
        self.t = t
        self.leaf = leaf
        self.keys = []
        self.children = []

class BTree:
    def __init__(self, t):
        self.root = BTreeNode(t, True)
        self.t = t

    def insert(self, k):
        root = self.root
        if len(root.keys) == (2 * self.t) - 1:
            s = BTreeNode(self.t, False)
            self.root = s
            s.children.insert(0, root)
            self.split_child(s, 0)
            self.insert_non_full(s, k)
        else:
            self.insert_non_full(root, k)

    def insert_non_full(self, x, k):
        i = len(x.keys) - 1
        if x.leaf:
            x.keys.append((None, None))
            while i >= 0 and k[0] < x.keys[i][0]:
                x.keys[i + 1] = x.keys[i]
                i -= 1
            x.keys[i + 1] = k
        else:
            while i >= 0 and k[0] < x.keys[i][0]:
                i -= 1
            i += 1
            if len(x.children[i].keys) == (2 * self.t) - 1:
                self.split_child(x, i)
                if k[0] > x.keys[i][0]:
                    i += 1
            self.insert_non_full(x.children[i], k)

    def split_child(self, x, i):
        t = self.t
        y = x.children[i]
        z = BTreeNode(t, y.leaf)
        x.children.insert(i + 1, z)
        x.keys.insert(i, y.keys[t - 1])
        z.keys = y.keys[t: (2 * t) - 1]
        y.keys = y.keys[0: t - 1]
        if not y.leaf:
            z.children = y.children[t: 2 * t]
            y.children = y.children[0: t - 1]

    def delete(self, k):
        # deletion code here...
        pass

    def search(self, k):
        # search code here...
        pass

在这个例子中，我们定义了两个类：BTreeNode 和 BTree。BTreeNode 类表示B树中的每个节点，而 BTree 类表示整个B树。我们实现了插入和分裂操作，但删除和搜索操作尚未实现。

案例分析：

假设我们要创建一个t=3的B树，并插入以下关键字：(10, ‘a’), (20, ‘b’), (30, ‘c’), (40, ‘d’), (50, ‘e’)。

首先，我们创建一个空的B树，然后插入第一个关键字 (10, ‘a’)。由于树是空的，这个关键字将成为根节点的唯一关键字。

接下来，我们插入第二个关键字 (20, ‘b’)。因为根节点还没有达到最大容量（2 * t - 1 = 5），我们可以直接将新关键字插入到适当的位置。

然后，我们插入第三个关键字 (30, ‘c’)。同样地，由于根节点还没有达到最大容量，我们可以直接将新关键字插入到适当的位置。

接下来，我们插入第四个关键字 (40, ‘d’)。此时，根节点已达到最大容量（5），我们需要创建一个新的父节点，并将根节点分裂成两个子节点。我们将根节点的中间关键字 (20, ‘b’) 移动到新的父节点上，然后将剩下的关键字分别放入左右子节点。

最后，我们插入第五个关键字 (50, ‘e’)。由于根节点的右子节点还没有达到最大容量，我们可以直接将新关键字插入到适当的位置。

最终的B树如下所示：

          (20, 'b')
         /     \
   (10, 'a')   (30, 'c')
                 \
              (40, 'd')
                   \
                (50, 'e')

在上一个案例中，我们构建了一个t=3的B树并插入了一些关键字。现在，让我们继续分析如何从这个B树中删除一个关键字，例如 (20, ‘b’)。

在B树中，删除操作可能涉及到以下步骤：

查找要删除的关键字。
如果找到的关键字在叶节点中，则直接删除。
如果找到的关键字在非叶节点中，则需要找到后继或前驱节点，用它来替换要删除的关键字，然后递归地删除该后继或前驱节点。
在删除节点后，如果该节点的关键字数量低于最小限制（t-1），则可能需要与相邻的兄弟节点合并或重新分配关键字以保持B树的平衡。

现在，我们来删除 (20, ‘b’)。

首先，我们在B树中查找关键字 (20, ‘b’)。在本例中，(20, ‘b’) 是根节点的关键字。
因为 (20, ‘b’) 在非叶节点中，我们需要找到它的后继节点。后继节点是当前节点右侧子树中的最小关键字。在本例中，后继节点是 (30, ‘c’)。
我们用 (30, ‘c’) 替换 (20, ‘b’)。现在，B树如下所示：

          (30, 'c')
         /     \
   (10, 'a')   (40, 'd')
                 \
                (50, 'e')

现在，我们需要递归地删除 (30, ‘c’)。但是，(30, ‘c’) 已经被用作替换，因此不需要进一步删除。
下一步是检查是否有节点的关键字数量低于最小限制（t-1）。在这种情况下，根节点只有一个关键字，这满足了最小限制。因此，我们不需要进行任何额外的操作。

最终的B树如下所示：

          (30, 'c')
         /     \
   (10, 'a')   (40, 'd')
                 \
                (50, 'e')

如果我们继续向此B树中添加或删除关键字，B树将自动进行调整，以保持平衡和排序特性。这种自平衡和排序特性使得B树非常适合用于大型数据集和外部存储，如文件系统、数据库和索引。

在之前的案例分析中，我们讨论了如何在B树中插入和删除关键字。现在，让我们通过实际的源代码实现来进一步了解B树的删除操作。

在我们之前给出的B树代码示例中，delete 方法尚未实现。为了实现删除操作，我们需要添加以下代码：

def delete(self, k):
    root = self.root
    self.delete_entry(root, k)

def delete_entry(self, x, k):
    i = 0
    while i < len(x.keys) and k[0] > x.keys[i][0]:
        i += 1

    if x.leaf:
        if i < len(x.keys) and x.keys[i][0] == k[0]:
            x.keys.pop(i)
        return

    if i < len(x.keys) and x.keys[i][0] == k[0]:
        return self.delete_internal_node(x, k, i)
    elif len(x.children[i].keys) >= self.t:
        self.delete_entry(x.children[i], k)
    else:
        if i != 0 and i + 2 < len(x.children):
            if len(x.children[i - 1].keys) >= self.t:
                self.move_right(x, i)
            elif len(x.children[i + 1].keys) >= self.t:
                self.move_left(x, i)
            else:
                self.merge(x, i)

        self.delete_entry(x.children[i], k)

def delete_internal_node(self, x, k, i):
    if x.leaf:
        if x.keys[i][0] == k[0]:
            x.keys.pop(i)
        return

    if len(x.children[i].keys) >= self.t:
        x.keys[i] = self.find_predecessor(x.children[i])
        self.delete_entry(x.children[i], x.keys[i])
    elif len(x.children[i + 1].keys) >= self.t:
        x.keys[i] = self.find_successor(x.children[i + 1])
        self.delete_entry(x.children[i + 1], x.keys[i])
    else:
        self.merge(x, i)
        self.delete_entry(x.children[i], k)

def find_predecessor(self, x):
    while not x.leaf:
        x = x.children[-1]
    return x.keys[-1]

def find_successor(self, x):
    while not x.leaf:
        x = x.children[0]
    return x.keys[0]

def move_right(self, x, i):
    child = x.children[i]
    sibling = x.children[i + 1]
    child.keys.append(x.keys[i])
    x.keys[i] = sibling.keys[0]
    sibling.keys.pop(0)
    if not child.leaf:
        child.children.append(sibling.children[0])
        sibling.children.pop(0)

def move_left(self, x, i):
    child = x.children[i]
    sibling = x.children[i - 1]
    child.keys.insert(0, x.keys[i - 1])
    x.keys[i - 1] = sibling.keys[-1]
    sibling.keys.pop()
    if not child.leaf:
        child.children.insert(0, sibling.children[-1])
        sibling.children.pop()

def merge(self, x, i):
    child = x.children[i]
    sibling = x.children[i + 1]
    child.keys.append(x.keys[i])
    child.keys += sibling.keys
    child.children += sibling.children
    x.keys.pop(i)
    x.children.pop(i + 1)

现在，我们可以使用以下代码测试B树的删除操作：

tree = BTree(3)
tree.insert((10, 'a'))
tree.insert((20, 'b'))
tree.insert((30, 'c'))
tree.insert((40, 'd'))
tree.insert((50, 'e'))

tree.delete((20, 'b'))

这将删除关键字 (20, ‘b’) 并自动调整B树以保持平衡。最终的B树如下所示：

          (30, 'c')
         /     \
   (10, 'a')   (40, 'd')
                 \
                (50, 'e')

在这个示例中，我们实现了B树的删除操作，包括查找要删除的关键字、用后继或前驱节点替换要删除的关键字、递归地删除后继或前驱节点以及维护B树的平衡。这些操作确保了B树在插入、删除和查找操作中始终具有对数时间复杂度，使其成为处理大量数据和外部存储的理想数据结构。

B树的性质可以通过一个表格的形式来总结，这样可以清晰地列出B树的关键特征。以下是一个关于B树性质的表格：

特性	描述
定义	B树是一种自平衡的多路搜索树，用于快速查找、插入和删除操作。
阶数	B树的阶数 `m` 定义了每个节点最多有多少个子节点。
最小度数	B树的最小度数 `t`，等于 `m/2` 向上取整。
关键字数量	每个节点最多有 `m-1` 个关键字，至少有 `t-1` 个关键字（对于非根节点）。
子节点数量	每个节点至少有 `t` 个子节点（对于非根节点），最多有 `m` 个子节点。
根节点	根节点至少有一个关键字，最多有 `m-1` 个关键字。
叶子节点	所有叶子节点都位于同一层，并且不含有子节点。
关键字顺序	节点中的关键字按升序排列。
分割规则	当一个节点的关键字数量超过 `m-1` 时，节点将被分割。
分割细节	分割时，中间关键字被提升到父节点，形成两个新的子节点。
平衡性	B树的所有路径从根到叶的长度相同。

此外，下面是关于B树插入、删除和查找操作的表格：

操作	描述
插入	当插入一个关键字时，如果节点未满，则直接插入；如果节点已满，则节点将被分割，中间关键字提升到父节点。
删除	删除一个关键字可能涉及替换内部节点的关键字（用前驱或后继），然后从叶节点删除该关键字。如果删除导致节点的关键字数量低于 `t-1`，则需要与兄弟节点合并或重新分配关键字。
查找	从根节点开始，比较关键字，向下遍历到正确的子节点，直到找到关键字或到达叶节点。

这些表格提供了B树的基本结构和操作的概览，帮助理解其设计和功能。B树的设计目的是为了优化磁盘I/O，因为磁盘读写通常涉及较大的块，B树允许在每次磁盘访问时读取更多的数据。

数据结构第11节： B树

悦读