Bootstrap

Java之ConcurrentHashMap线程安全原理

Java之ConcurrentHashMap线程安全原理

引言

对于Java程序员来说,HashMap是他们用到最多的映射(键值对)数据结构,但是HashMap是线程不安全的,在多线程的环境下,建议使用线程安全的ConcurrentHashMap。

锁机制

在JDK1.7及其之前,ConcurrentHashMap采用的是分段锁,也就是先将ConcurrentHashMap分成一定数量的段Segment,构成一个Segment数组,数组中的元素才是HashMap的键值对Node结点。可以理解为维护了一个Segment数组,数组中的元素是HashMap。

如此,在加锁时只需要对每个Segment段进行加锁即可,无需对整个ConcurrentHashMap加锁,提高了并发效率。

image-20241201184619140

但是,对Segment段加锁,会导致统一段内的其它Node结点也无法被其它线程访问。

在JDK1.8及其之后,取消了分段机制,保留原有HashMap的数据结构,单独只对某一个Node结点进行加锁,不会影响其它结点,大大提高了锁粒度,提高了并发效率。

image-20241201185321379

在JDK1.8及其之后,使用synchronized关键字以及CAS自旋锁保证多线程安全性。

当我们使用put方法新增键值对时:

public V put(K key, V value) {
        return putVal(key, value, false);
    }

会调用putVal方法:

final V putVal(K key, V value, boolean onlyIfAbsent) {
        if (key == null || value == null) throw new NullPointerException();
        int hash = spread(key.hashCode());
        int binCount = 0;
        for (Node<K,V>[] tab = table;;) {
            Node<K,V> f; int n, i, fh;
            if (tab == null || (n = tab.length) == 0)
                tab = initTable();
            else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
                if (casTabAt(tab, i, null,
                             new Node<K,V>(hash, key, value, null)))
                    break;                   // no lock when adding to empty bin
            }
            else if ((fh = f.hash) == MOVED)
                tab = helpTransfer(tab, f);
            else {
                V oldVal = null;
                synchronized (f) {
                    if (tabAt(tab, i) == f) {
                        if (fh >= 0) {
                            binCount = 1;
                            for (Node<K,V> e = f;; ++binCount) {
                                K ek;
                                if (e.hash == hash &&
                                    ((ek = e.key) == key ||
                                     (ek != null && key.equals(ek)))) {
                                    oldVal = e.val;
                                    if (!onlyIfAbsent)
                                        e.val = value;
                                    break;
                                }
                                Node<K,V> pred = e;
                                if ((e = e.next) == null) {
                                    pred.next = new Node<K,V>(hash, key,
                                                              value, null);
                                    break;
                                }
                            }
                        }
                        else if (f instanceof TreeBin) {
                            Node<K,V> p;
                            binCount = 2;
                            if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key,
                                                           value)) != null) {
                                oldVal = p.val;
                                if (!onlyIfAbsent)
                                    p.val = value;
                            }
                        }
                    }
                }
                if (binCount != 0) {
                    if (binCount >= TREEIFY_THRESHOLD)
                        treeifyBin(tab, i);
                    if (oldVal != null)
                        return oldVal;
                    break;
                }
            }
        }
        addCount(1L, binCount);
        return null;
    }

image-20241201190043657

我们可以看到,当通过 (f = tabAt(tab, i = (n - 1) & hash)) == null 判断数组索引位置上没有数据时,就会通过casTabAt方法将Node结点直接加进去:

static final <K,V> Node<K,V> tabAt(Node<K,V>[] tab, int i) {
        return (Node<K,V>)U.getObjectVolatile(tab, ((long)i << ASHIFT) + ABASE);
    }

tabAt方法会调用Unsafe类内的getObjectVolatile方法,该方法通过直接从内存中取值,确保数据是其它线程修改后上传的最新值。

static final <K,V> boolean casTabAt(Node<K,V>[] tab, int i,
                                        Node<K,V> c, Node<K,V> v) {
        return U.compareAndSwapObject(tab, ((long)i << ASHIFT) + ABASE, c, v);
    }

casTabAt方法会调用Unsafe类内的compareAndSwapObject方法,该方法通过CAS的方式保证将数据安全的修改。

image-20241201191123534

可以看到,如果数组索引位上已经有结点数据的情况下,会使用synchronized锁住该结点,如果结点后面是链表或者红黑树,也可以保证只有当前线程可以访问(因为锁住了根结点,其它线程拿不到根结点,就无法向后遍历)。

扩容

在JDK1.7及其之前,Segment数组无法进行扩容,如果某个Segment内的Node数组达到了阈值,就单独对该Node数组进行扩容。这样,扩容的次数越多,每个Segment内的数组就越长,锁的灵活性就越差。

在JDK1.8及其之后,与原HashMap扩容机制基本一致,不过加入了多线程协助扩容机制:

image-20241201192329427

可以看到,如果结点的hash值为MOVED也就是-1,就认为当前数组正在扩容,就会调用helpTransfer方法协助扩容:

final Node<K,V>[] helpTransfer(Node<K,V>[] tab, Node<K,V> f) {
        Node<K,V>[] nextTab; int sc;
        if (tab != null && (f instanceof ForwardingNode) &&
            (nextTab = ((ForwardingNode<K,V>)f).nextTable) != null) {
            int rs = resizeStamp(tab.length) << RESIZE_STAMP_SHIFT;
            while (nextTab == nextTable && table == tab &&
                   (sc = sizeCtl) < 0) {
                if (sc == rs + MAX_RESIZERS || sc == rs + 1 ||
                    transferIndex <= 0)
                    break;
                if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1)) {
                    transfer(tab, nextTab);
                    break;
                }
            }
            return nextTab;
        }
        return table;
    }

总数

多线程环境下,如何保证size方法获取到的结点总数量是正确的?

    public int size() {
        long n = sumCount();
        return ((n < 0L) ? 0 :
                (n > (long)Integer.MAX_VALUE) ? Integer.MAX_VALUE :
                (int)n);
    }

size方法调用了sumCount方法:

final long sumCount() {
        CounterCell[] as = counterCells; CounterCell a;
        long sum = baseCount;
        if (as != null) {
            for (int i = 0; i < as.length; ++i) {
                if ((a = as[i]) != null)
                    sum += a.value;
            }
        }
        return sum;
    }

可以看到,除了基础的总数baseCount外,ConcurrentHashMap还维护了一个CounterCell数组,通过将baseCount与CounterCell数组中的每个数相加得到最终总数。

在putVal方法的最后调用了addCount方法:

image-20241201193314927

private final void addCount(long x, int check) {
        CounterCell[] as; long b, s;
        if ((as = counterCells) != null ||
            !U.compareAndSwapLong(this, BASECOUNT, b = baseCount, s = b + x)) {
            CounterCell a; long v; int m;
            boolean uncontended = true;
            if (as == null || (m = as.length - 1) < 0 ||
                (a = as[ThreadLocalRandom.getProbe() & m]) == null ||
                !(uncontended =
                  U.compareAndSwapLong(a, CELLVALUE, v = a.value, v + x))) {
                fullAddCount(x, uncontended);
                return;
            }
            if (check <= 1)
                return;
            s = sumCount();
        }
        if (check >= 0) {
            Node<K,V>[] tab, nt; int n, sc;
            while (s >= (long)(sc = sizeCtl) && (tab = table) != null &&
                   (n = tab.length) < MAXIMUM_CAPACITY) {
                int rs = resizeStamp(n) << RESIZE_STAMP_SHIFT;
                if (sc < 0) {
                    if (sc == rs + MAX_RESIZERS || sc == rs + 1 ||
                        (nt = nextTable) == null || transferIndex <= 0)
                        break;
                    if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))
                        transfer(tab, nt);
                }
                else if (U.compareAndSwapInt(this, SIZECTL, sc, rs + 2))
                    transfer(tab, null);
                s = sumCount();
            }
        }
    }

addCount会先通过CAS尝试直接增加baseCount:

image-20241201193739162

如果失败,则随机在CounterCell数组内增加:

image-20241201193932755

增加完总数后,还要判断一下是否需要扩容:

image-20241201194108145

CAS

CAS全称CompareAndSwap,也就是自旋锁。

其本质上并不是锁,只是通过循环比较来不断尝试:

CAS会拿到一个要修改的旧值A,想将其改为新值B,然后访问内存中的当前值C,

判断如果内存值C与自己的旧值A不相等,则认为当前有其它线程在访问该数据,自己就先放弃修改,

然后循环再次比较C与A,如果一直不相等就一直循环直至相等,

此时如果内存值C与自己的旧值A相等,那么认为当前没有其它线程访问该数据,将该数据该为新值B,结束CAS。

CAS会直接从内存中读取数据,并且可以保证读写操作的原子性。

需要注意的是,CAS并不能保证数据的可见性,它无法保证从内存中读取的数据C是最新的值,也无法保证修改后的值B可以被其他线程同步。我们应该结合可以保证数据可见性的关键字volatile使用:

己的旧值A不相等,则认为当前有其它线程在访问该数据,自己就先放弃修改,

然后循环再次比较C与A,如果一直不相等就一直循环直至相等,

此时如果内存值C与自己的旧值A相等,那么认为当前没有其它线程访问该数据,将该数据该为新值B,结束CAS。

CAS会直接从内存中读取数据,并且可以保证读写操作的原子性。

需要注意的是,CAS并不能保证数据的可见性,它无法保证从内存中读取的数据C是最新的值,也无法保证修改后的值B可以被其他线程同步。我们应该结合可以保证数据可见性的关键字volatile使用:

image-20241201200256587

;