贝叶斯网络(二)————BDeu分数


上一篇中,最后所得到的式

实际上是K2分数。 而K2分数实际上是贝叶斯迪利克雷分数的特殊形式。 特殊在其假设密度函数为均匀分布:。 一般地,假设该密度函数并不是均匀的,而是服从迪利克雷分布:

2014年3月23日添加: 标准的迪利克雷分布公式为: 故密度函数中实际上表示变量出现次数为

采用与K2分数同样的计算方法可得到贝叶斯迪利克雷分数BDe:

根据贝叶斯网络的马尔可夫性质,两个马尔可夫等价的贝叶斯网络应该具有相同的分数。这样引入样本大小先验值,这样在父状态下的先验值,也即满足:。并且,认为每个变量取各个值的概率均等,都为。带入BDe分数即可得到BDeu分数:

BDeu分数中的的定义是根据密度而来,密度的含义表示当前节点在已知数据中,在已知条件下(父状态)各个数值出现的概率。 该节点取各个数值的概率合为(如同硬币,或者是正面或者是反面),恰好是多项分布(如果是硬币就是二项分布)。 此时,不知道数据中具体出现了多少次状态,所以要引入共轭先验分布(迪利克雷分布),从而引入额外的参数来表示分布之上的分布。 有的的文献为了方便常常把迪利克雷分布写成伽马函数,参数写成减一的形式,相当于

BDeu假设数据是完整的,即含有各种状态,涵盖各个变量。 具有相同的马尔可夫性质的网络应该具有相同的分数。 例如这样的网络应该具备相同的贝叶斯分数。 举个例子(找个简单直观的例子怎么这么难!!! 似乎没有人愿意用简单的例子来讲道理……):

表格

假设上面的表个是数据中的关于A和B变量的所有状态。 在节点的某一父状态下,相应的迪利克雷分布的参数,也即是上面表格中阴影部分的实例个数。 表格中白色背景和灰色背景所对应的状态是一致的,所以马尔可夫相等的样本大小,也即是表格中白色背景和灰色背景之和。 相应地,节点的父状态为2(有两个取值)。 从这个表格可以直观得到BDeu所提出的等式

石见石页 /
在共享协议(CC)下发布于
类别: 学术 
标签: 迪利克雷分布  dirichlet distribution  贝叶斯网络  模型选择  机器学习  bdeu  中
不愿分享?也可捐赠……