Update 集合源码.md

5 years ago · 240c2765f3
parent f75a4bc2af
commit 240c2765f3
1 changed files with 25 additions and 1 deletions
--- a/blogs/Java/口水话/集合源码.md
+++ b/blogs/Java/口水话/集合源码.md
@ -8,6 +8,7 @@
 2. Vector
 3. LinkedList
 4. HashMap
+5. Hashtable

 #### ArrayList

@ -33,4 +34,27 @@ LinkedList 实现了 Deque 接口，说明它是一个双向链表，每一个 N

 HashMap 底层数据结构是数组 + 链表 + 红黑树。数组的主要作用是方便快速查找，时间复杂度是 O(1)，默认大小是 16，数组的下表索引是通过 key 的 hashCode 计算出来的，数组元素叫做 Node，当多个 key 的 hashCode 一致，但 key 值不相同时，即发生了 hash 冲突时，单个 Node 就会转化为链表，链表的查询复杂度是 O(n)，当链表的长度大于等于 8 并且数组的大小超过 64 时，链表就会转化为红黑树，红黑树的查询复杂度是 O(log(n))，简单来说，最坏的查询次数相当于红黑树的最大深度。

-HashMap 非线程安全，如果需要满足线程安全，可以用 Collections.synchronizedMap 使得 HashMap 具有线程安全的能力，或者使用 ConcurrentHashMap。
+HashMap 非线程安全，如果需要满足线程安全，可以用 Collections.synchronizedMap 使得 HashMap 具有线程安全的能力，或者使用 ConcurrentHashMap。
+
+上面已经说清楚 HashMap 的大致实现原理了，下面就说一些细节的东西。
+
+在 HashMap 中，哈希桶数组的长度大小必须是 2 的 n 次方，这是一种非常规的设计，常规的做法是把桶大小设计为素数。相对来说，素数导致冲突的概率要小于合数。HashTable 初始化桶的大小为 11 就是把桶大小设计为素数的典型应用。HashMap 采用这种非常规的设计，主要是为了在取模和扩容时做优化，同时为了减少冲突，HashMap 在定位哈希桶索引位置时，也加入了高位参与运算的过程。
+
+在链表长度大于等于 8 并且数组长度大于等于 64 时，才会进行树化。如果数组长度小于 64，则只会扩容而不会树化。为什么是 8 呢？这个在源码注释中说的比较清楚，大致意思是，在链表数据不多的时候，使用链表进行遍历也比较快，只有当链表数据比较多才会转化为红黑树，但红黑树的占用空间是链表的两倍，考虑到转化时间和空间消耗，所以我们需要定义出转化的边界值。在考虑设计 8 这个值的时候，参考了泊松分布概率函数，得出的结论就是当链表长度为 8 的时候，出现的概率不到千万分之一，所以说，正常情况下链表的长度不可能到达 8。
+
+接下来讲确定哈希桶索引位置的做法。
+
+简单的做法就是通过 hash 对数组长度取模运算得到索引，这样元素分布相对来说也是比较均匀的，但是取模运算不及位运算，HashMap 采用的是 (n-1)&hash，当 n 为 2 的次方时，(n-1)&hash 等价于取模运算，但是位运算执行效率显然是高于取模运算的。
+
+同时，取 hash 的时候是通过 hashCode 的高十六位和低十六位异或得到，这样做在数组长度比较小的时候也能保证高位 bit 都能参与到 hash 计算中，同时不会有太大开销。
+
+然后再讲一下扩容机制，扩容的时候是容量翻倍，也就是 x2，这也同时保证了长度依旧是 2 的次方，所以前面基于位运算取索引的优化得以保留。既然数组长度改变了，那么肯定需要重新计算索引位置呀？这里又有一个优化点，当 n 为 2 次方时，x2 不过是在高位补 1，然后在进行与运算，与 1 进行与运算就是它本身嘛。所以这时只需要看 hash 的高位是 1 还是 0，如果是 0，索引不变，如果是 1，新索引就是原索引加旧桶值。这也就避免了重新计算索引，只需要看 hash 的高位是 1 还是 0 即可。但是你可能会说，这必须得保证数组长度为 n 次方呀，我们可以在初始化 HashMap 时传一个非 2 的 n 次方的数，这就炸了。其实呢，HashMap 会根据你传的舒适容量，自动调节到 2 的 n 次方上，比如传 15 就是 16，传 17 呢就是 32，向上转一个最接近的 2 次幂数。
+
+最后，在这里面我并没有将 HashMap 的具体 put/remove/get 的实现，这些其实就是数组或链表或红黑树的操作，数组和链表大家都很熟悉了，红黑树我也不是很懂，只需要记得每次 put/remove 时，都会进行着色和旋转，使得红黑树更加平衡。再不济就把红黑树看成一颗二叉搜索树也行趴。
+
+#### Hashtable
+
+首先这个 Hashtable 的命名就有点离谱，没有遵循驼峰命名法。它的实现是通过一个 Entry 数组来做的，put/remove/get 都加了 synchronized，是线程安全的，它的取 index 是 (hash & 0x7FFFFFFF) % tab.length，前面和 0x7FFFFFF 是为了让 hash 值变为正数，那你可能会问，为啥不用 Math.abs 呢，其实在数值溢出时，abs 也是可能会得到负值的；HashMap 的可以只有一个 key 为 null，多个 value 为 null 的，而 Hashtable 是不允许 key/value 为 null 的，不然直接抛空指针。
+
+Hashtable 在扩容时，是 x2 + 1 的。
+