最大熵原理是在1957 年由E.T.Jaynes 提出的,其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。因为在这种情况下,符合已知知识的概率分布可能不止一个。我们知道,熵定义的实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确定,换句话说,也就是随机变量最随机,对其行为做准确预测最困难。
从这个意义上讲,那么最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法作出。
可查看《浅谈最大熵原理和统计物理学》
——曾致远(Richard Chih-Yuan Tseng)
研究领域主要为古典信息论,量子信息论及理论统计热物理学,临界现象及非平衡热力学等物理现象理论研究古典信息论在统计物理学中之意义及应用。
早期的信息论其中心任务就是从理论上认识一个通信的设备(手段)的通信能力应当如何去计量以及分析该通信能力的规律性。但是信息论研究很快就发现利用信息熵最大再附加上一些约束,就可以得到例如著名的统计学中的高斯分布(即正态分布)。这件事提示我们高斯分布又多了一种论证的方法,也提示了把信息熵最大化是认识客观事物的规律性的新角度。
把熵最大(对应我们的复杂程度最大)做为一种原则或者方法应用于各个科技领域的旗手是杰尼斯E.T.Jaynes 。他从1957年就在这个方向做了开创性的工作。他给出了利用最大熵方法定量求解问题的一般技术途径;论证了统计力学中的一些著名的分布函数从信息熵最大的角度也可以得到证明。这不仅使信息论知识与统计物理知识实现了连通,也使熵概念和熵原理走出了热力学的领域。
20世纪60年代Burg在时间序列的分析中提出了用信息熵最大求频谱的技术。用这种方法得到的谱的准确性比过去的方法好,人们把它称为最大熵谱。80年代这个方法在我国也得到了广泛应用。40多年以来,尽管“利用最大熵的方法解决科技问题”在信息论的理论中不是主流,但是利用信息熵最大帮助解决很多科技问题已经形成了独立的一股学术和技术力量,而且是硕果累累了。80年代以来在美国等地每年都召开一次讨论最大熵方法应用的学术会议,并且有一册会议文集出版。这成为他们的重要学术活动形式。
最大熵方法的特点是在研究的问题中,尽量把问题与信息熵联系起来,再把信息熵最大做为一个有益的假设(原理),用于所研究的问题中。由于这个方法得到的结果或者公式往往(更)符合实际,它就推动这个知识在前进和曼延。我国学者(后来去了加拿大)吴乃龙、袁素云在本领域有成就,而且也在所著的《最大熵方法》(湖南科学技术出版社1991年出版)一书中向国人就这个方法做了很全面的介绍。
把最复杂原理与信息论中的最大熵方法联系起来,既是自然的逻辑推论也显示最复杂原理并不孤立。这样,最大熵方法过去取得的一切成就都在帮助人们理解最复杂原理的合理性。而最复杂原理的引入也使人们摆脱对神秘的熵概念和熵原理的敬畏。在理解了最复杂原理来源于概率公理以后,我们终于明白,神秘的熵原理本质上仅是“高概率的事物容易出现”这个再朴素不过的公理的一个推论。
前段时间,Google 中国研究院的刘骏总监谈到在网络搜索排名中,用到的信息有上百种。更普遍地讲,在自然语言处理中,我们常常知道各种各样的但是又不完全确定的信息,我们需要用一个统一的模型将这些信息综合起来。如何综合得好,是一门很大的学问。
让我们看一个拼音转汉字的简单的例子。假如输入的拼音是"wang-xiao-bo",利用语言模型,根据有限的上下文(比如前两个词),我们能给出两个最常见的名字“王小波”和“王晓波”。至于要唯一确定是哪个名字就难了,即使利用较长的上下文也做不到。当然,我们知道如果通篇文章是介绍文学的,作家王小波的可能性就较大;而在讨论两岸关系时,台湾学者王晓波的可能性会较大。在上面的例子中,我们只需要综合两类不同的信息,即主题信息和上下文信息。虽然有不少凑合的办法,比如:分成成千上万种的不同的主题单独处理,或者对每种信息的作用加权平均等等,但都不能准确而圆满地解决问题,这样好比以前我们谈到的行星运动模型中的小圆套大圆打补丁的方法。在很多应用中,我们需要综合几十甚至上百种不同的信息,这种小圆套大圆的方法显然行不通。
最漂亮的办法是最大熵(maximum entropy)模型,它相当于行星运动的椭圆模型。“最大熵”这个名词听起来很深奥,但是它的原理很简单,我们每天都在用。说白了,就是要保留全部的不确定性,将风险降到最小。让我们来看一个实际例子。
有一次,我去 AT&T 实验室作关于最大熵模型的报告,我带去了一个色子。我问听众“每个面朝上的概率分别是多少”,所有人都说是等概率,即各点的概率均为1/6。这种猜测当然是对的。我问听众们为什么,得到的回答是一致的:对这个“一无所知”的色子,假定它每一个朝上概率均等是最安全的做法。(你不应该主观假设它象韦小宝的色子一样灌了铅。)从投资的角度看,就是风险最小的做法。从信息论的角度讲,就是保留了最大的不确定性,也就是说让熵达到最大。接着,我又告诉听众,我的这个色子被我特殊处理过,已知四点朝上的概率是三分之一,在这种情况下,每个面朝上的概率是多少?这次,大部分人认为除去四点的概率是 1/3,其余的均是 2/15,也就是说已知的条件(四点概率为 1/3)必须满足,而对其余各点的概率因为仍然无从知道,因此只好认为它们均等。注意,在猜测这两种不同情况下的概率分布时,大家都没有添加任何主观的假设,诸如四点的反面一定是三点等等。(事实上,有的色子四点反面不是三点而是一点。)这种基于直觉的猜测之所以准确,是因为它恰好符合了最大熵原理。
最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。我们常说,不要把所有的鸡蛋放在一个篮子里,其实就是最大熵原理的一个朴素的说法,因为当我们遇到不确定性时,就要保留各种可能性。
回到我们刚才谈到的拼音转汉字的例子,我们已知两种信息,第一,根据语言模型,wang-xiao-bo 可以被转换成王晓波和王小波;第二,根据主题,王小波是作家,《黄金时代》的作者等等,而王晓波是台湾研究两岸关系的学者。因此,我们就可以建立一个最大熵模型,同时满足这两种信息。匈牙利著名数学家、信息论最高奖香农奖得主希萨(Csiszar)证明,对任何一组不自相矛盾的信息,这个最大熵模型不仅存在,而且是唯一的。而且它们都有同一个非常简单的形式 --指数函数。
这是一个约束极值问题,通过Lagrange乘数法可以求得其最优解,从熵作为系统不确定性的度量的角度来看,等可能系统的不确定性是最大的,这一结果与我们的直观是一致的。更进一步,许多问题都附带一些实际的限制,也可以理解为在解决问题之前,我们可以获得一些已知信息。由此,(1)可以深化为
为各阶统计矩函数,,表示实际观测到的各阶统计矩的期望值。这里由于为一正常数,为简便记,取。同(1),仍然可以利用Lagrange乘数法来求解。做Lagrange函数:
解出最优解。但当较大时,往往计算困难。姜昱汐提出了一个解决此问题的方法[5]。利用对偶规划理论,可得问题(2)的求解相当于求解:
其中,(3)是凸规划(2)的对偶规划,优势在于(3)是一个变量个数较(2)少的无约束规划,可以直接利用软件求解。
对于连续系统,记为一连续随机变量,概率密度函数为。此系统的熵定义为[6]。在一些条件的约束下,使得系统熵最大的问题一般有下面形式:
其中为一些约束,右端为观测值。这是一个有
个约束的泛函极值问题。关于这一问题有如下定理。
定理2.1[7]若在条件约束下目标泛
使得满足泛函,所给出的欧拉方程组
由此方程组可解出目标。
例3.1为一随机变量, ,利用最大熵原理来估计 。
解:系统的熵值
约束条件为
构造Lagrange函数
求解6元方程组(将作为变量)
没有约束条件时的最大熵分布为
此时的熵为。由于约束条件提供了更多的信息,减小了系统的不确定性。
例3.2
解:由定理2.1,作泛函其欧拉方程为
解得:
将这一结果回代入两个约束条件当中,可解得使目标泛函达到极值的概率密度
这是正态分布的概率密度。
得泛函 取极值的概率密度 应满足
对应此式的辅助泛函
可解得
可回代上式入约束条件解出。
连续熵的极大问题比较复杂,约束条件多种多样整形约束、微分约束、等周约束等等。可能有些问题还会附加一些边界条件,上面的例子只是一些基本算例。对于复杂问题,在误差允许范围内进行数值计算也是解决问题的一个途径。