2016-05-26

JDK源代码之HashMap

HashMap首先是一种Map结构，将一个key映射到一个value，有点特殊的是，HashMap不仅允许value为空，也允许key为空。

其次，HashMap继承自抽象map，而不是像HashTable那样继承自Dictionary（虽然都实现了Map接口）；另外，HashTable是同步的，而HashMap并不支持同步。

HashMap内部使用了Hash机制，该机制可以有效地将add与get的平均复杂度降低为O(1)（以前get在最坏的情况下会是O(n)，现在当哈希码相同的同一条链上元素数目超过8时，该链会转为平衡树，所以最坏的情况下是O(logN)）

重要字段

默认容量：DEFAULT_INITIAL_CAPACITY

HashMap的默认容量，初始值设为16。初始值的设置是有讲究的，必须是2的N次方形式，为什么？在为key计算下标时，我们需要让key的哈希码和数组容量做与运算，2的冥可以使得数据更加分散。

最大容纳因子：loadFactor

HashMap的饱和比例，默认为0.75，当HashMap中的数据量达到75%时，HashMap会启用resize()方法扩大容量，扩大为之前的2倍，也就是newCap = oldCap << 1。

节点数组：Node<K,V>[] table

可见HashMap内部其实使用了数组，节点数组，每个Node节点是一个键值对，各个键值对之间通过next指针相连在一起。

Node的源代码如下：

static class Node<K,V> implements Map.Entry<K,V> {
    final int hash;
    final K key;
    V value;
    Node<K,V> next;

    Node(int hash, K key, V value, Node<K,V> next) {
        this.hash = hash;
        this.key = key;
        this.value = value;
        this.next = next;
    }

    public final K getKey()        { return key; }
    public final V getValue()      { return value; }
    public final String toString() { return key + "=" + value; }

    // 每个键值对的哈希码也是独一无二的
    public final int hashCode() {
        return Objects.hashCode(key) ^ Objects.hashCode(value);
    }

    // 更换该键值对的值
    public final V setValue(V newValue) {
        V oldValue = value;
        value = newValue;
        return oldValue;
    }

    // 判断两个键值对是否equals，不仅key要相同，而且value也要相同
    public final boolean equals(Object o) {
        if (o == this)
            return true;
        if (o instanceof Map.Entry) {
            Map.Entry<?,?> e = (Map.Entry<?,?>)o;
            if (Objects.equals(key, e.getKey()) &&
                Objects.equals(value, e.getValue()))
                return true;
        }
        return false;
    }
}

Set<Map.Entry<K,V>> entrySet

存储键值对的一个set集合，它和上面的table有什么区别？似乎被抛弃了，因为已经有了entrySet()方法。

size

HashMap内部数据的大小。

threshold

size的数值超过它时，HashMap必须扩容。

重要方法

计算哈希码：static final int hash(Object key)：

static final int hash(Object key) {
    int h;

    // 如果对象为空则返回0
    // 如果不为空，就求得key.hashCode()的结果h，将h与其左移16位后的结果做异或。
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

这里为什么要和左移16位的结果呢？官方是这样解释的：“Because the table uses power-of-two masking, sets of hashes that vary only in bits above the current mask will always collide.”。
原来，这是为了减小冲突，把高位的数据扩散到低位。举个例子，假设HashMap的数组大小是16，那么计算出来的哈希码必须和16（二进制是4个1）做与的运算，这样一来，哈希码只有低4位才起作用，如果有大量的key的哈希码的低4位都相同而更高位不同，它们最终依旧会放在同一个下标，哪怕它们之间因为高位不同而差别巨大。

扩容并重散列：final Node<K,V>[] resize()

final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;
    if (oldCap > 0) {

       // HashMap原先的容量已经达到极限，无法扩容，直接返回旧的table
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }

        // 将容量直接翻倍，“可用容量”也翻倍
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr << 1; // double threshold
    }
    else if (oldThr > 0) // initial capacity was placed in threshold
        newCap = oldThr;
    else {               // zero initial threshold signifies using defaults
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }

    // 在HashMap为空的情况下进行扩容，初始化各项参数
    if (newThr == 0) {
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr;

    // 得到新的table数组，大小是原先的两倍
    @SuppressWarnings({"rawtypes","unchecked"})
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    table = newTab;
    if (oldTab != null) {

       // 逐项扫描旧table数组
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;

            // 如果旧tabel数组的某一下标处不为空
            if ((e = oldTab[j]) != null) {
                oldTab[j] = null;

                // 如果该下标处只有一个元素，而没有因哈希码相同而处在同一条链上元素
                if (e.next == null)
                   // 直接放入新的table数组。因为数组容量扩大一倍，有可能下标是之前的两倍，也有可能不变
                    newTab[e.hash & (newCap - 1)] = e;

                // 如果该下标处的元素是一个树节点。（哈希码冲突的key都放在同一棵树上，树根放在该哈希码对应的数组下标处）
                else if (e instanceof TreeNode)
                	 // 将旧的树分裂，放到新的数组中去
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);

                // 如果同一链中数据不到8个（仍未分裂为树），则将旧链分为2条新链
                else { // preserve order

                	 // 下标较小的新链(low)
                    Node<K,V> loHead = null, loTail = null;
                	// 下标较大的新链(high)
                    Node<K,V> hiHead = null, hiTail = null;
                    Node<K,V> next;
                    do {
                        next = e.next;
                        // 之前都是与oldCap-1（假设二进制有4位）做与运算，结果是4位二进制，如今与oldCap
                        // （有5位，且最高位为1其余为0）做运算，第5位是0的到下标低的新链，第5位是1的到下标大的新链
                        if ((e.hash & oldCap) == 0) {
                            if (loTail == null)
                                loHead = e;
                            else
                                loTail.next = e;
                            loTail = e;
                        }
                        else {
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);

                    // 将两条新链加入新table数组
                    if (loTail != null) {
                        loTail.next = null;
                        newTab[j] = loHead;
                    }
                    if (hiTail != null) {
                        hiTail.next = null;
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}

该方法处理的数组下标处元素有以下3种情况：

该下标处不存在冲突的数据
该下标处存在冲突的数据，冲突的数据不够多，用一条链来存储（新的冲突的数据不再放在链头部，而是放在链尾部）
该下标处存在冲突的数据，冲突的数据特别多，用一棵平衡树来存储

该方法是HashMap中极为重要的方法，处理HashMap扩大容量时的各种情况。

关于该方法的性能：

如果是第一种情况，复杂度当然是O(1)
如果是第二种情况，复杂度是该链的长度，最差情况下会达到O(n)
如果是第三种情况，那么复杂度和红黑树的遍历有关，在下面分析到树的分裂时再具体分析。搜索插入删除的复杂度都能做到O(logN)。

插入：final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict)：将一个键值对插入HashMap

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;

    // 如果旧table数组为空，就需要调用resize方法来扩容
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;

    // 哈希码与数组大小做与运算，寻找合适的下标。
    // 如果该下标处为空，就新建一个Node节点.
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);

    // 该下标已经有元素存在
    else {
        Node<K,V> e; K k;
        // 该下标的元素的key就是要插入的key
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
        // 该下标的元素是个树节点（说明哈希码冲突的key过多，已经被逼用红黑树结构来存储）
        else if (p instanceof TreeNode)
        	 // 插入到该哈希码对应的红黑树中
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        // 该下标的元素是条链的链头
        else {
        	 // 遍历该链，力图插入到链尾
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) {
                    p.next = newNode(hash, key, value, null);
                    // 如果该链的长度达到一定长度，就转为红黑树
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    break;
                }
                // 该链中已经有该key
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    ++modCount;
    // 插入后，考虑是否要扩容
    if (++size > threshold)
        resize();
    afterNodeInsertion(evict);
    return null;
}

该方法会将一个键值对插入到HashMap，哈希码由hash()方法计算得到。

和resize()方法类似，在插入键值对时也要分情况考虑：

如果数组下标处为空，则直接插入一个Node节点
如果数组下标处不为空，且是一个树节点，则插入键值对到该下标对应的红黑树中去
如果数组下标处不为空，且是一条链的链头，则尝试插入到链尾
在这过程中，如果key已经存在则返回

在插入后还要考虑是否要扩容。

获取value：final Node<K,V> getNode(int hash, Object key)

final Node<K,V> getNode(int hash, Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;

    // 确保数组不为空，且根据该哈希码计算得到的下标处不为空
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {
        // 该下标处就是我们要找的key
        if (first.hash == hash && // always check first node
            ((k = first.key) == key || (key != null && key.equals(k))))
            return first;
        // 如果该节点是树节点，则遍历对应的红黑树
        if ((e = first.next) != null) {
            if (first instanceof TreeNode)
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            // 如果不是树节点，说明是链结构，直接遍历该链
            do {
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;
}

getNode方法根据key的哈希码和key来查找相应的value。
同样的，该方法也会分情况讨论。

删除：final Node<K,V> removeNode(int hash, Object key, Object value, boolean matchValue, boolean movable)

final Node<K,V> removeNode(int hash, Object key, Object value,
                           boolean matchValue, boolean movable) {
    Node<K,V>[] tab; Node<K,V> p; int n, index;
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (p = tab[index = (n - 1) & hash]) != null) {
        Node<K,V> node = null, e; K k; V v;
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            node = p;
        else if ((e = p.next) != null) {
            if (p instanceof TreeNode)
                node = ((TreeNode<K,V>)p).getTreeNode(hash, key);
            else {
                do {
                    if (e.hash == hash &&
                        ((k = e.key) == key ||
                         (key != null && key.equals(k)))) {
                        node = e;
                        break;
                    }
                    p = e;
                } while ((e = e.next) != null);
            }
        }

        // 分情况，将该节点删除
        if (node != null && (!matchValue || (v = node.value) == value ||
                             (value != null && value.equals(v)))) {
            if (node instanceof TreeNode)
                ((TreeNode<K,V>)node).removeTreeNode(this, tab, movable);
            else if (node == p)
                tab[index] = node.next;
            else
                p.next = node.next;
            ++modCount;
            --size;
            afterNodeRemoval(node);
            return node;
        }
    }
    return null;
}

想要删除一个节点，首先要查找到该节点，事实上，该方法中的搜索过程和getNode一模一样。
找到后，也是根据数组下标处元素的不同来分情况，这里不再赘述。

static final int tableSizeFor(int cap)：对一个整数，求出大于它且最接近它的2的冥

static final int tableSizeFor(int cap) {
    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

该方法非常巧妙，将最高位的1不断地置换到所有地位上去（结果类似于000011111111），最终加1，记得到2的冥次(也就是000111111111)。

final void putMapEntries(Map<? extends K, ? extends V> m, boolean evict)：将一堆数据插入HashMap

final void putMapEntries(Map<? extends K, ? extends V> m, boolean evict) {
    int s = m.size();
    if (s > 0) {

       // 如果HashMap数组为空，没有元素
        if (table == null) { // pre-size
            float ft = ((float)s / loadFactor) + 1.0F;
            int t = ((ft < (float)MAXIMUM_CAPACITY) ?
                     (int)ft : MAXIMUM_CAPACITY);

            // 当前设置的“可用容量”不够，扩大“可用容量”。
            if (t > threshold)
                threshold = tableSizeFor(t);
        }
        else if (s > threshold)
            resize();

        // 将m中的键值对都插入HashMap
        for (Map.Entry<? extends K, ? extends V> e : m.entrySet()) {
            K key = e.getKey();
            V value = e.getValue();
            putVal(hash(key), key, value, false, evict);
        }
    }
}

final void split(HashMap<K,V> map, Node<K,V>[] tab, int index, int bit)：将旧数组上的树分裂到新数组上去

final void split(HashMap<K,V> map, Node<K,V>[] tab, int index, int bit) {
    TreeNode<K,V> b = this;
    // Relink into lo and hi lists, preserving order
    TreeNode<K,V> loHead = null, loTail = null;
    TreeNode<K,V> hiHead = null, hiTail = null;
    int lc = 0, hc = 0;
    for (TreeNode<K,V> e = b, next; e != null; e = next) {
        next = (TreeNode<K,V>)e.next;
        e.next = null;
        if ((e.hash & bit) == 0) {
            if ((e.prev = loTail) == null)
                loHead = e;
            else
                loTail.next = e;
            loTail = e;
            ++lc;
        }
        else {
            if ((e.prev = hiTail) == null)
                hiHead = e;
            else
                hiTail.next = e;
            hiTail = e;
            ++hc;
        }
    }

    if (loHead != null) {
       // 如果新的低链数量不够，就只形成一条链
        if (lc <= UNTREEIFY_THRESHOLD)
            tab[index] = loHead.untreeify(map);

        // 如果数量很多，就将链转为红黑树
        else {
            tab[index] = loHead;
            if (hiHead != null) // (else is already treeified)
                loHead.treeify(tab);
        }
    }
    if (hiHead != null) {
       // 如果新的高链数量不够，就只形成一条链
        if (hc <= UNTREEIFY_THRESHOLD)
            tab[index + bit] = hiHead.untreeify(map);
     // 如果数量很多，就将链转为红黑树
        else {
            tab[index + bit] = hiHead;
            if (loHead != null)
                hiHead.treeify(tab);
        }
    }
}

树的分裂，其复杂度似乎也是O(n)？将链转为树时涉及到红黑树的插入平衡等调整，尚未接触红黑树，待日后补充。

总结：不同于以前HashMap单纯用链来处理冲突，现在的HashMap引入了红黑树来应付大量的冲突，HashMap的效率提高了不少，当n是一百万时也可以接受，**至少在最坏情况下复杂度不再是O(n)**。

邱永臣

构建一个完美的世界