分布式系统的一致性与共识算法(一)

admin2024-05-15  0

前言

etcd是线性一致性读,而zk却是顺序一致性读,再加上各种共识、强弱一致的名词,看到欸度时候总会混淆,这里会给出一些例子来帮助理解。

什么是一致性?

在谈到一致性这个词时,你会想到CAP理论的consistency,或者ACID钟的consistency,或者cache一致性协议的coherence,还是Raft/Paxos钟的consensus?
一致性这个词在不同的领域具有不同的含义,毕竟这个中文词在英文词对应了不同的术语,consistency,coherence,consensus三个单词统一翻译为"一致性"。因此在谈一致性之前,有必要对这几个概念做一个区分,否则很容易让人迷惑。

coherence

Coherence只出现在Cache Coherence一词中,称为"缓存一致性",研究多核场景,即怎么保证多个核上的CPU缓存数据是一致的。一般是单机维度的,不算分布式领域

consensus

consensus准确的翻译是共识,即多个提议者达成共识的过程,例如Paxos,Raft就是共识算法,Paxos是一种共识理论,分布式系统是他的场景,一致性是他的目标。
一些常见的误解:使用了Raft或者Paxos的系统都是线性一致的(Linearizability即强一致),其实不然,共识算法只能提供基础,要实现线性一致还需要在算法之上做出更多的努力。因为分布式系统引入了多个节点,节点规模越大、宕机、网络时延、网络分区就会成为常态,任何一个问题都可能导致节点之间的数据不一致,因此Paxos和Raft准确来讲是用来解决一致性问题的共识算法,用于分布式场景,而非"缓存一致性"这种单机场景。所以很多文章也就简称"Paxos是分布式系统中的一致性算法"。
一致性(Consistency)的含义比共识(Consensus)要宽泛,一致性指的是多个副本对外呈现的状态。包括顺序一致性、线性一致性、最终一致性等。而共识特指达成一致的过程,但注意,共识并不意味着实现了一致性,一些情况它是做不到的

Paxos与Raft

Paxos其实是一类协议,Paxos中包含Basic Paxso、Multi-Paxos、Cheap Paxos和其他的变种。Raft就是Multi-Paxos的一个变种,Raft通过简化
Multi-Paxos的模型,实现了一种更容易让人理解和工程实现的共识算法,Paxos是第一个被证明完备的共识算法,能够让分布式网络中的节点出现错误时仍然保持一致,当然前提是没有恶意节点,也就是拜占庭将军问题。在传统的分布式系统领域是不需要担心这种问题的。因为不论是分布式数据库、消息队列、分布式存储,你的机器都不会故意发送错误信息,最常见的问题反而是节点失去响应,所以它们在这种前提下,Paxos是足够用的

复制状态机

Consensus共识在实现机制上属于复制状态机(Replicated State Machine)的范畴,复制状态机是一种很有效的容错技术,基于复制日志来实现,每个Server存储着一份包含序列的日志文件,状态机会按顺序执行这些命令。因为日志中的命令和顺序都相同,因此所有节点会得到相同的数据。因此保证系统一致性就简化为保证操作日志的一致,这种复制日志的方式被大量运用,如果GSF、HDFS、ZooKeeper和etcd都是这种机制。

区块链

共识算法还有一个很重要的领域,就是比较火的区块链,比如工作量证明(POW)、权益证明(POS)和委托权益证明(DPOS)、置信度证明(POB)等等,都是共识算法。大家熟知的zk、etcd这种之所以叫"传统分布式",就是相对于区块链这种"新型分布式系统"而言的,都是多节点共同工作,只是区块链有几点特殊:

  • 1.区块链需要解决的是拜占庭将军问题,Paxos之类的一致性算法无法对抗欺诈节点
  • 2.区块链中不存在中央空置房,没有一个节点可以控制或协调账本数据的生成
  • 3.区块链中的共识算法如果达不到一致性,则任何人都可以硬分叉,另建一个社区、一条链
  • 4.分布式系统的性能理论上可以无限提升,但是区块链是以相对的低效率来换取公正,主流的公有链每秒只能处理几笔到几十笔交易

consistency

介绍完了Coherence和Consensus共识,我们来看consistency一致性,也就是我们平时说的最多的CAP、BASE、ACID之类。
最简单的,客户端C1将系统中的一个值K由V1更新为V2,客户端C2/C3/C4需要立即读取到K的最新值。

一致性要求的是一致,并不是正确,如果所有节点给出一个"错误"的答案,那也叫一致性

对于不同的场景,用户角度对于一致性的要求是不一样的,例如:

  • 1.银行系统:你在柜台存了一笔钱,同时你的朋友转账给你一笔钱,你的女朋友同时又在淘宝消费了一笔钱,你可能会感觉很乱,但你相信,最后你的余额一定是对的,银行可以慢一点,但不会把钱搞错。
  • 2.电商系统:你在淘宝看到一个库存为5的衣服,然后你快速下单,但是被提示"库存不足,无法购买",你会觉得自己动作太慢,被人抢走了,不太关心库存为啥显示5
  • 3.论坛小站:你注册一个论坛,需要手机验证码,点完发送之后,一直没有响应,过了一天你才收到了这条短信,不过小站而已,不注册也就罢了。

上面是夸张了的用户情况,在实际业务中,一致性也是分等级的,如强一致行和弱一致性,怎么使用要看具体和系统的容忍度。
强一致性和弱一致性只是一种统称,按照从强到弱,可以划分为:

  • 1.线性一致性Linearizability consitency,也叫原子性
  • 2.顺序一致性Sequential consistency
  • 3.因果一致性Causal consistency
  • 4.最终一致性Eventual consistency

强一致性包括线性一致性和顺序一致性,其他的如最终一致性都是弱一致性。
关于强和弱的定义,可以参考剑桥大学的slide

Strong consistency
- ensures that only consistent state can be seen.
* All replicas return the same value when queried for the attribute of an object. This may be achieved at a cost - high latency.

Weak consistency
- for when "fast access" requriement domainates
* update some replica, e.g. the closest or some designated replica
* the update replica sends up date messages to all other replicas.
* different replicas can return different values for the queried attribute of the value should be returned ,or "not known", with a timestamp
* in the long term all updates must propagte to all replicas ....

强一致性集群中,对任何一个节点发起请求都会得到相同的回复,但将产生相对高的延迟。而弱一致性具有更低的响应延迟,但可能会回复过期的数据,最终一致性即是经过一段时间后会达到一致的弱一致性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明原文出处。如若内容造成侵权/违法违规/事实不符,请联系SD编程学习网:675289112@qq.com进行投诉反馈,一经查实,立即删除!