一致性哈希的实现方法网上有很多,这篇文章的图画的很好。
但一直以来有个困惑没有解决,如果一致性哈希环上有一个机器下线,那么相邻的节点会承接其数据和流量,应该会出现数据倾斜的情况才对,上面的文章只说了虚拟节点可以解决这个问题,但还是没懂。
其实本质上是虚拟节点的使用方式并没有彻底理解。下面举例说明
示例
假设有三个物理节点 A、B 和 C,每个物理节点对应三个虚拟节点:
A -> 哈希值 20, 40, 60
B -> 哈希值 80, 100, 120
C -> 哈希值 140, 160, 180
数据项通过哈希函数映射到哈希环上的位置,并存储在顺时针方向第一个遇到的虚拟节点上。例如:
数据项 K1 映射到哈希值 10,存储在虚拟节点 A1(哈希值 20)上。
数据项 K2 映射到哈希值 50,存储在虚拟节点 A2(哈希值 60)上。
数据项 K3 映射到哈希值 90,存储在虚拟节点 B1(哈希值 100)上。
现在新增一个物理节点 D,它对应三个虚拟节点:
D -> 哈希值 30, 70, 110'
新增节点 D 会影响到其相邻的虚拟节点:
虚拟节点 D1(哈希值 30)会影响到虚拟节点 A1(哈希值 20)。
虚拟节点 D2(哈希值 70)会影响到虚拟节点 A2(哈希值 60)。
虚拟节点 D3(哈希值 110)会影响到虚拟节点 B1(哈希值 100)。
通过这种方式,每次上线节点的时候,映射到的虚拟节点对其他节点产生均匀的影响;而节点下线的时候,其所映射的虚拟节点也下线,归属于它的数据和流量也就会均匀分散到其他的节点上了。
总结
其实之前没有理解虚拟节点的使用方法,它是可以动态上下线的,而且动态的上下线对其他节点产生均匀的影响,这样就能保证所有实体节点之间的数据和流量均衡。