Update 集合源码.md

master
Omooo 5 years ago
parent f75a4bc2af
commit 240c2765f3
  1. 26
      blogs/Java/口水话/集合源码.md

@ -8,6 +8,7 @@
2. Vector
3. LinkedList
4. HashMap
5. Hashtable
#### ArrayList
@ -33,4 +34,27 @@ LinkedList 实现了 Deque 接口,说明它是一个双向链表,每一个 N
HashMap 底层数据结构是数组 + 链表 + 红黑树。数组的主要作用是方便快速查找,时间复杂度是 O(1),默认大小是 16,数组的下表索引是通过 key 的 hashCode 计算出来的,数组元素叫做 Node,当多个 key 的 hashCode 一致,但 key 值不相同时,即发生了 hash 冲突时,单个 Node 就会转化为链表,链表的查询复杂度是 O(n),当链表的长度大于等于 8 并且数组的大小超过 64 时,链表就会转化为红黑树,红黑树的查询复杂度是 O(log(n)),简单来说,最坏的查询次数相当于红黑树的最大深度。
HashMap 非线程安全,如果需要满足线程安全,可以用 Collections.synchronizedMap 使得 HashMap 具有线程安全的能力,或者使用 ConcurrentHashMap。
HashMap 非线程安全,如果需要满足线程安全,可以用 Collections.synchronizedMap 使得 HashMap 具有线程安全的能力,或者使用 ConcurrentHashMap。
上面已经说清楚 HashMap 的大致实现原理了,下面就说一些细节的东西。
在 HashMap 中,哈希桶数组的长度大小必须是 2 的 n 次方,这是一种非常规的设计,常规的做法是把桶大小设计为素数。相对来说,素数导致冲突的概率要小于合数。HashTable 初始化桶的大小为 11 就是把桶大小设计为素数的典型应用。HashMap 采用这种非常规的设计,主要是为了在取模和扩容时做优化,同时为了减少冲突,HashMap 在定位哈希桶索引位置时,也加入了高位参与运算的过程。
在链表长度大于等于 8 并且数组长度大于等于 64 时,才会进行树化。如果数组长度小于 64,则只会扩容而不会树化。为什么是 8 呢?这个在源码注释中说的比较清楚,大致意思是,在链表数据不多的时候,使用链表进行遍历也比较快,只有当链表数据比较多才会转化为红黑树,但红黑树的占用空间是链表的两倍,考虑到转化时间和空间消耗,所以我们需要定义出转化的边界值。在考虑设计 8 这个值的时候,参考了泊松分布概率函数,得出的结论就是当链表长度为 8 的时候,出现的概率不到千万分之一,所以说,正常情况下链表的长度不可能到达 8。
接下来讲确定哈希桶索引位置的做法。
简单的做法就是通过 hash 对数组长度取模运算得到索引,这样元素分布相对来说也是比较均匀的,但是取模运算不及位运算,HashMap 采用的是 (n-1)&hash,当 n 为 2 的次方时,(n-1)&hash 等价于取模运算,但是位运算执行效率显然是高于取模运算的。
同时,取 hash 的时候是通过 hashCode 的高十六位和低十六位异或得到,这样做在数组长度比较小的时候也能保证高位 bit 都能参与到 hash 计算中,同时不会有太大开销。
然后再讲一下扩容机制,扩容的时候是容量翻倍,也就是 x2,这也同时保证了长度依旧是 2 的次方,所以前面基于位运算取索引的优化得以保留。既然数组长度改变了,那么肯定需要重新计算索引位置呀?这里又有一个优化点,当 n 为 2 次方时,x2 不过是在高位补 1,然后在进行与运算,与 1 进行与运算就是它本身嘛。所以这时只需要看 hash 的高位是 1 还是 0,如果是 0,索引不变,如果是 1,新索引就是原索引加旧桶值。这也就避免了重新计算索引,只需要看 hash 的高位是 1 还是 0 即可。但是你可能会说,这必须得保证数组长度为 n 次方呀,我们可以在初始化 HashMap 时传一个非 2 的 n 次方的数,这就炸了。其实呢,HashMap 会根据你传的舒适容量,自动调节到 2 的 n 次方上,比如传 15 就是 16,传 17 呢就是 32,向上转一个最接近的 2 次幂数。
最后,在这里面我并没有将 HashMap 的具体 put/remove/get 的实现,这些其实就是数组或链表或红黑树的操作,数组和链表大家都很熟悉了,红黑树我也不是很懂,只需要记得每次 put/remove 时,都会进行着色和旋转,使得红黑树更加平衡。再不济就把红黑树看成一颗二叉搜索树也行趴。
#### Hashtable
首先这个 Hashtable 的命名就有点离谱,没有遵循驼峰命名法。它的实现是通过一个 Entry 数组来做的,put/remove/get 都加了 synchronized,是线程安全的,它的取 index 是 (hash & 0x7FFFFFFF) % tab.length,前面和 0x7FFFFFF 是为了让 hash 值变为正数,那你可能会问,为啥不用 Math.abs 呢,其实在数值溢出时,abs 也是可能会得到负值的;HashMap 的可以只有一个 key 为 null,多个 value 为 null 的,而 Hashtable 是不允许 key/value 为 null 的,不然直接抛空指针。
Hashtable 在扩容时,是 x2 + 1 的。

Loading…
Cancel
Save