Python----数据结构（哈希表：哈希表组成，哈希冲突）

一、哈希表

哈希表(Hash table)是一种常用、重要、高效的数据结构。

哈希表通过哈希函数,可以快速地将键(Key)映射到值(Value)。从而允许在近常数时间内对键关联的值进行插入、删除和查找操作。

哈希表的主要思想是通过哈希函数将键转换为索引，将索引映射到数组中的存储位置

通俗的例子是，为了查找电话簿中某人的号码，可以创建一个按照人名首字母顺序排列的表，在首字母为L的表中查找“雷”姓的电话号码，显然比直接查找就要快得多。

二、代码展示

2.1、键值对

class Pair:  
    """键值对的类，包含一个键和一个值"""  

    def __init__(self, key: int, val: str):  
        """初始化键值对"""  
        self.key = key  # 键，整数类型  
        self.val = val  # 值，字符串类型  

    def __repr__(self):  
        """返回键值对的字符串表示"""  
        return f"{self.key} -> {self.val}"

2.2、初始化

    def __init__(self):  
        """构造方法，初始化哈希表"""  
        # 创建一个包含 100 个桶的数组  
        self.buckets: list[Pair | None] = [None] * 100

2.3、哈希函数

    def hash_func(self, key: int) -> int:  
        """哈希函数，将键映射到索引"""  
        index = hash(key) % 100  # 使用内置哈希函数计算键的哈希值，并对桶的数量取模  
        return index

2.4、添加键值对

    def put(self, key: int, val: str):  
        """添加键值对到哈希表"""  
        pair = Pair(key, val)  # 创建新的键值对  
        index: int = self.hash_func(key)  # 计算键的哈希索引  
        self.buckets[index] = pair  # 将键值对放入相应的桶中

2.5、查询值

    def get(self, key: int) -> str:  
        """根据给定的键查询值"""  
        index: int = self.hash_func(key)  # 计算键的哈希索引  
        pair: Pair = self.buckets[index]  # 获取对应的键值对  
        if pair is None:  
            return None  # 如果未找到，返回 None  
        return pair.val  # 返回找到的值

2.6、删除键值对

    def remove(self, key: int):  
        """根据给定的键删除键值对"""  
        index: int = self.hash_func(key)  # 计算键的哈希索引  
        self.buckets[index] = None  # 将桶置为 None，表示删除

2.7、返回所有键值对

    def entry_set(self) -> list[Pair]:  
        """返回哈希表中所有的键值对"""  
        result: list[Pair] = []  
        for pair in self.buckets:  
            if pair is not None:  
                result.append(pair)  # 将非空桶的键值对添加到结果列表中  
        return result

2.8、返回键

    def key_set(self) -> list[int]:  
        """返回哈希表中所有的键"""  
        result = []  
        for pair in self.buckets:  
            if pair is not None:  
                result.append(pair.key)  # 将非空桶的键添加到结果列表中  
        return result

2.9、返回值

    def value_set(self) -> list[str]:  
        """返回哈希表中所有的值"""  
        result = []  
        for pair in self.buckets:  
            if pair is not None:  
                result.append(pair.val)  # 将非空桶的值添加到结果列表中  
        return result

2.10、输出

    def print(self):  
        """打印哈希表中的所有键值对"""  
        for pair in self.buckets:  
            if pair is not None:  
                print(pair.key, "->", pair.val)  # 打印每个键值对

2.11、完整代码

class Pair:  
    """键值对的类，包含一个键和一个值"""  

    def __init__(self, key: int, val: str):  
        """初始化键值对"""  
        self.key = key  # 键，整数类型  
        self.val = val  # 值，字符串类型  

    def __repr__(self):  
        """返回键值对的字符串表示"""  
        return f"{self.key} -> {self.val}"  


class ArrayHashMap:  
    """基于数组实现的哈希表"""  

    def __init__(self):  
        """构造方法，初始化哈希表"""  
        # 创建一个包含 100 个桶的数组  
        self.buckets: list[Pair | None] = [None] * 100  

    def hash_func(self, key: int) -> int:  
        """哈希函数，将键映射到索引"""  
        index = hash(key) % 100  # 使用内置哈希函数计算键的哈希值，并对桶的数量取模  
        return index  

    def put(self, key: int, val: str):  
        """添加键值对到哈希表"""  
        pair = Pair(key, val)  # 创建新的键值对  
        index: int = self.hash_func(key)  # 计算键的哈希索引  
        self.buckets[index] = pair  # 将键值对放入相应的桶中  

    def get(self, key: int) -> str:  
        """根据给定的键查询值"""  
        index: int = self.hash_func(key)  # 计算键的哈希索引  
        pair: Pair = self.buckets[index]  # 获取对应的键值对  
        if pair is None:  
            return None  # 如果未找到，返回 None  
        return pair.val  # 返回找到的值  

    def remove(self, key: int):  
        """根据给定的键删除键值对"""  
        index: int = self.hash_func(key)  # 计算键的哈希索引  
        self.buckets[index] = None  # 将桶置为 None，表示删除  

    def entry_set(self) -> list[Pair]:  
        """返回哈希表中所有的键值对"""  
        result: list[Pair] = []  
        for pair in self.buckets:  
            if pair is not None:  
                result.append(pair)  # 将非空桶的键值对添加到结果列表中  
        return result  

    def key_set(self) -> list[int]:  
        """返回哈希表中所有的键"""  
        result = []  
        for pair in self.buckets:  
            if pair is not None:  
                result.append(pair.key)  # 将非空桶的键添加到结果列表中  
        return result  

    def value_set(self) -> list[str]:  
        """返回哈希表中所有的值"""  
        result = []  
        for pair in self.buckets:  
            if pair is not None:  
                result.append(pair.val)  # 将非空桶的值添加到结果列表中  
        return result  

    def print(self):  
        """打印哈希表中的所有键值对"""  
        for pair in self.buckets:  
            if pair is not None:  
                print(pair.key, "->", pair.val)  # 打印每个键值对  


if __name__ == '__main__':  
    map = ArrayHashMap()  # 创建一个新的哈希表实例  
    map.put('m', '蟒')  # 添加键值对  
    map.put('s', '蛇')  
    map.put('c', '程')  
    map.put('x', '序')  
    map.put('y', '员')  
    
    # 查询并打印值  
    print(map.get('m'))  # 输出：蟒  
    print(map.get('s'))  # 输出：蛇  
    print(map.get('c'))  # 输出：程  
    print(map.get('x'))  # 输出：序  
    print(map.get('y'))  # 输出：员  
    
    # 打印哈希表的内容  
    map.print()  
    print(map.entry_set())  # 输出所有的键值对

三、哈希冲突

若key(关键字)为n，则其值存放在 f(n) = n % size 的存储位置上。由此，不需比较便可直接取得所查记录。称这个对应关系f函数为哈希(散列)函数，按这个思想建立的表为哈希(散列)表

但对不同的关键字可能得到同一散列地址，即n1 ≠ n2，而f(n1)==f(n2)，这种现象称为冲突

3.1、散列函数

哈希表中元素的位置是由哈希函数确定的。将数据n作为自变量，通过一定的函数关系计算出的值，即为该元素的存储地址。

3.1.1、直接定址法

直接使用key的某些部分作为存储地址，适用于关键字的取值范围不大的情况

假设我们有一组学生ID，并决定使用学生ID本身作为哈希地址

公式：哈希地址 = 学生ID

3.1.2、数字分析法

针对key的数位进行分析，选择具有代表性的数位作为哈希地址。

适用于关键字具有一定规律的情况假设我们有一组社交安全号码,我们选择使用最后两位数字作为哈希地址

对于123-45-6789，我们取最后两位89作为哈希地址

3.1.3、平方取中法

将关键字的平方值的中间一部分作为哈希地址。

适用于关键字分布较均匀的情况假设我们有一组三位数，我们将每个数字平方，然后取中间的数字作为哈希地址

对于数字456，平方得到207936。取中间两位数字

哈希地址为79公式：哈希地址 = 取中位数字(平方(关键字))

3.1.4、折叠法

将关键字分割成固定长度的片段，然后将这些片段相加，再取余数作为哈希地址。

适用于关键字长度较长的情况。考虑一组电话号码（例如，123-456-7890）。

我们可以将数字分成两位一组，求和，然后取模得到哈希地址对于电话号码123-456-7890，哈希地址将是(12 + 34 + 56 + 78 + 90) % 表大小

公式：哈希地址 = 组的数字之和(关键字) % 表大小

3.1.5、随机数法

用一个随机数生成器产生哈希地址。适用于关键字分布随机的情况

3.1.6、除留余数数法（常用）

将关键字除以某个不大于哈希表大小的数，取余数作为哈希地址

公式：哈希地址 = 关键字 % 表大小

3.2、哈希冲突处理的办法

1、单独链表法（常用）

每个桶（数组元素）存储一个链表或其他数据结构（如列表）。所有哈希到同一索引的元素都放在这个链表中。

2、开放定址法

当发生哈希冲突时，试探性地寻找下一个空桶以存储新的键值对。可以使用线性探测、二次探测或者双重散列来确定下一个桶的位置。

3、双散列

是开放定址法的一种变体，使用两个不同的哈希函数。当发生冲突时，第二个哈希函数决定下一步的探测位置，从而实现更均匀的分布。

4、再散列

当哈希表达到一定的负载因子时，扩展表的大小并重新计算所有元素的位置，分散冲突。一般会将哈希表的容量加倍，并使用新的哈希函数或改变现有的哈希函数。

5、建立一个公共溢出区

设计一个额外的数组（溢出区）用于存储溢出（冲突）的元素。每当一个桶中溢出时，它就会将该元素放入溢出区。