先说结论:为了使哈希表容器(HashMap、HashSet等)能正常工作。
首先明确,哈希表(也叫散列表)是根据关键码值(Key Value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。这个设计避免了在查找时遍历所有数据,从而实现快速查找。
以 HashMap 为例,这个关键码值的key就是key对象的hashcode。进行put()时,先计算key对象的hashcode,再与当前数组长度取模,余数就是key对象将要被存于数组中的下标。
HashMap源码中计算key下标的方式:(n - 1) & hash,n为当前数组长度,hash为key对象的hashcode。
这里明明是hashcode与数组长度减一相与,为什么说是与当前数组长度取模呢?
这里需要知道位运算的一个特性,即:
若 hash % n == hash & (n - 1) 成立,当且仅当n是2的幂。
因此,如果数组长度是2的幂,就能够运用上这个等价转化,采⽤⼆进制位操作 &,相对于取模 % 能够提⾼运算效率,让 HashMap 存取更加⾼效,这也是 HashMap 每次扩容都会将数组长度乘以2的原因。
不难看出,hashcode不同的对象会被当做不同的对象(即不equals的对象)存于不同位置上,也就是默认以下命题(命题1)为真:
命题1(原命题):若两个对象的hashcode不相等,则equals()返回false。
对于hashcode相同的对象,才会进一步比较是否equals来判断他们是否相等,这是实现快速查找的关键。
命题1的逆否命题(命题2)是:
命题2(逆否命题):若两个对象equals()返回true,则他们的hashcode相等。
我们知道,原命题和逆否命题是等价的,要维护原命题(命题1)为真,只需保证其逆否命题(命题2)为真即可。
也就是说,如果equals返回true,那么就必须有相同的hashcode。
因此,重写了equals的判断逻辑,就必须随之改变hashcode的计算方法。
那么,只重写了equals()而没有重写hashcode(),会出现什么问题呢?
只重写了equals()而没有重写hashcode(),那么两个对象的hashcode就是从内存地址转化而来,一定不相同,即使是equals的。这就会导致这两个equals的对象被存到了哈希表中不同的位置上,这就违反了key的唯一性。
反过来,只重写了hashcode()而没有重写equals(),又会有什么问题?
只重写了hashcode()而没有重写equals(),那么equals()比较的相当于就是内存地址,两次new出来的对象一定是不同的,但如果他们的成员属性的值都相同,那么他们的hashcode就是相同的,会存在同一个链表(或红黑树)中。致命的是,再使用get(key)来获取值时,只要这时传入的key和set(key, value)时使用的key不是同一个对象,即使每个成员属性的值都一样,也不能得到想要的结果,因为这两个key是不equals的,会被当做不同key。
综上所述,Java中的equals()和hashcode()必须同时重写,否则哈希表容器将不能正常工作。