北京大学肖臻老师《区块链技术与应用》公开课笔记(十六)：ETH数据结构：状态树

在以太坊中，有三棵树的说法，分别是状态树、收据树和交易树。了解了这三棵树，就弄清楚了以太坊的基础数据结构设计。

前一篇文章中有提过，以太坊采用基于账户的模式，系统中显式记录每个账户的余额。而以太坊这样一个大型分布式系统中，是采用的什么样的数据结构来实现对这些数据的管理的。

引入

首先账户信息应该是账户地址—-账户信息这样kye—-value键值对的形式存储的。在以太坊中，账户地址为160字节，表示为40个16进制数。状态包含了余额(balance)、交易次数(nonce),合约账户中还包含了code(代码)、存储(stroge)。

使用hash表存储

既然是K-V键值对，我们能不能用hash表来实现？

系统中的全节点维护一个hash表，每当系统中有新节点插入或者旧节点状态改变，直接修改hash表的值，如果不考虑hash碰撞，那么查询、插入、修改都是常数级别的时间复杂度。其他节点如果想知道某个账户的账户余额，为了保证全节点发布信息的不可篡改，需要将储存账户信息的hash表组成一个merkle tree，然后把根hash发布到区块中，轻节点要验证某个账户的余额，向全节点要一个Merkle proof即可。但是，以太坊中十几秒发布一个区块，每个区块都会有一些交易，这些交易一定会改变hash表的值，那么每个区块，全节点都要重新把hash表组合成一个Merkle tree，代价很大。并且实际上每个区块改变的是一小部分账户状态。

问题来了：比特币系统也是每个区块构建一个Merkle tree，但是他构建的Merkle tree其实是订单的Merkle tree，一个区块包含一些订单，发布完之后就不会更改了，每个区块都是一些新的订单，都会构建新的Merkle tree。并且每次构建的Merkle tree上限也就4000个订单，这里要构建Merkle tree需要构建的是所有账户的Merkle tree，这个代价是很大很大的。

Merkle tree除了提供Merkle proof证明账户有多少钱之外，还有一个很重要的作用：维护全节点的状态一致性。这也是比特币系统把根哈希写进块头的原因(当前区块包含那些交易，所有全节点保持一个共识)。

使用一个Merkle tree存储

首先，Merkle tree 没有提供一个高效的查找和更新的方法。使得查找和更新效率不高。其次我们有必要对Merkle tree进行一个排序，因为如果不排序，那么各个全节点按照自己的方式(比如接收到账户信息的先后状态)组织Merkle tree，那么不同全节点组织出来的merkle tree的根哈希值是不一样的。

那么这时候我们就会想，那为什么比特币系统中的Merkle tree不用排序，不同全节点的组织方式也是不一样的，因为比特币系统中的挖矿其实是把各个信息，包括要包含的交易组成的Merkle tree的根哈希值和nonce等一起求哈希找到符合target的nonce，而且只有找到了nonce的节点才有发布区块的权力，那些没有找到符合要求的nonce的节点的Merkle tree的组织形式是没有意义的，并且比特币系统并不要求证明某个订单不在Merkle tree中，所以没有必要排序，也没有上述问题。

那么使用Sorted Merkle tree可以么？新增账户，由于其地址随机，插入Merkle Tree时候很大可能在Tree中间，就必须要重新构建Merkle tree。所以Sorted Merkle Tree插入、删除(实际上可以不删除)的代价太大。

既然哈希表和 Merkle Tree都不可以，那么我们看一下实际中以太坊采取的数据结构：MPT。