中文XML论坛--香农信息定义分析与改进

香农信息定义分析与改进
Analysis and Betterment of Shannon's Information Definition
王勇
（计算机与控制学院，桂林电子科技大学，广西　桂林　541004）

WANG Yong
（School of Computer and Control, Guilin University Of Electronic Technology，Guangxi, Guilin, 541004）
摘要：从新的角度指出了香农信息论和信息定义的局限性，指出了它没有考虑信息的可靠性，完备性等特点，指出条件熵的命名不恰当，香农的“条件熵”应该称为加权平均条件熵，并且举例证明了条件熵可能增加，进而香农信息定义中的不确定性的减少也不是绝对的。说明了为什么信息论和香农信息定义能够在通信中得到应用，却不能很好地在日常生活中应用。对信息可靠性的重要性进行了分析。在这些分析的基础上给出了信息的新定义以及信息相关的模型。
关键词：信息论；条件熵；定义；可靠性
Abstract：Limitations of Shannon's information theory and information definition are analyzed from new angles. It is pointed out that they didn’t consider the reliability, completeness and other characteristics of information, and the naming of conditional entropy is not proper. The correct naming of Shannon’s “conditional entropy” should be weighted average conditional entropy. Examples are given to illustrate the conditional entropy maybe increased, so Shannon’s definition of information is not absolutely correct. The reason is presented why information theory and Shannon’s definition of information can be primely used in communication, while it cannot well used in our daily life. The fundamentality of reliability of information is analyzed. Based on the analyses, a new definition of information is given and a correlative model of information is presented.
Keywords: information theory; conditional entropy; definition; reliability
中图分类号：O23 文献标识码：A
引言
香农（又译仙农、申农，Shannon）信息论对通信技术的发展具有深远的影响[1]。但是信息论的应用一直限于通信等一些很局限的领域，信息论并不能够完全地适用于一些信息技术相关的领域。关于香农信息论的局限性，许多学者都有认识，香农本人也反对将信息论滥用。国内外一些学者从许多角度讨论了信息论的局限性，比如没有考虑语义，语用，没有考虑信息的模糊性和事件之间的相似性，没有考虑事件划分可能存在包含关系等[2-4]。笔者发现信息论的局限性一个重要体现就是忽视信息的可靠性，缺乏对可靠性的度量。对可靠性的忽视也体现在目前所有的信息定义上，香农给出了信息的定义也是如此，事实也说明目前的信息定义并不能够让人满意，中国科学院编写的《21世纪100个交叉科学难题》一书中已把“信息是什么”列入100个难题之中。网上也到处都有信息定义的征集和讨论活动，这说明目前信息的定义都不能得到公认。笔者指出，目前信息的定义都没有考虑信息的可靠性这一因素，则导致了信息论无法应用在众多的信息技术领域，比如人工智能，信息融合等领域。本文将分析香农信息定义的局限，并且从可靠性的角度来定义和分析信息。
信息定义的局限
关于信息的定义据笔者搜索超过80种，香农的信息定义是比较流行的一个，他定义如下：信息是用以消除随机不确定性的东西。还有许多学者对这个定义有所修改，但是这些定义都是考虑到消除的随机不确定性，并没有考虑到信息的可靠性。还有一类定义，比如信息是被反映的物质的属性，信息是结构的表达等，都明显蕴含一个意思，信息是可靠的，是对物质、事物或者结构的一种正确的反映或者表达。在所有的信息定义中，都没有发现它们对于可靠性以及类似的属性的考虑[5]。
然而，信息之所以能够被利用，信息之所以被重视，它的可靠性是前提。一旦信息足够的不可靠，信息的价值完全丧失，而且可能起反作用。
香农对信息的定义，对信息的度量，以及他的信息论，基本上都是考虑的是用熵来计算的随机不确定性，并没有考虑信息的可靠度，对信息的可靠度的考虑最多是从信息传递过程中的失真进行了考虑。当然香农也对冗余有所考虑，但是他的冗余度是一个整体的，平均的量。为什么信息论在通信领域非常适用，因为在通信中，无需考虑信息的可靠性。那是发送者在发送之前或者是接受者在接受之后考虑的，在通信的过程中，一切的目的是如何快速，可靠地发送信息。接受信息的可靠与否，失真与否，与被发送的信息的可靠性，完备程度和真实程度没有关系，它只需要接受的信息与发送的信息相比较是可靠真实的就达到了通信的目的。
在香农信息论中，信息是没有考虑语义的，它不考虑信息的不一致性，乃至信息的互相矛盾也无所谓，因此不需要接受反馈和进行折衷调整。信息论中，还没有考虑到信息往往是不完全的片面的，需要进行融合，人们往往可以由已知的信息得出新的信息，但是香农信息论并没有涉及到如何利用已知的信息推理衍生新的信息。这些问题显然是信息技术所需要的，也是现实生活中广泛存在的问题。当然目前的知识工程、人工智能、信息融合技术已经开始研究这些问题[6]。
香农将信息定义为消除不确定性的东西，与他研究通信中的条件熵不增加有密切关系。香农定义了条件熵，并且得出条件熵不会大于先验熵，所以他得出结论：在得到关于x的认识以后，y的不确定性绝对不会增加。除非x和y相互独立时，y的不确定性不改变，否则y的不确定性将会减少。这也就是说后验熵（条件熵）一定不大于先验熵。香农条件熵的描述如下：
假设有两个事件x和y，x有m个可能的值，y有n个可能的值。假设p(i，j) 是x为i，y的值为j的同时发生的概率。当已知x取特定的值i时，有y取j的条件概率pi(j)。y的条件熵Hx（y）定义为对于x的每一个值作为条件时y的熵，根据x取每一个值的概率进行加权平均得到的加权平均值。
于是
Hx（y）＝－（1）
并且香农得出H （y）≥H x（y）。
我们看到这个条件熵并不是直接意义上的条件熵，而是在事先已知x和y的联合概率分布情况下，假如x的值从先验的随机分布确定为可能值其中的某一个值的时候，y平均意义上的后验不确定性。从公式上，也可以看出来明显是条件熵的加权平均。既然是加权平均，条件熵不增加就是平均意义上的，所以其中的某个条件熵的不确定性增加是可能的。香农的绝对化的描述不是很正确，应该是在得到关于x的认识以后，y的不确定性从平均意义上不会增加。那么，信息是消除不确定性的东西就不是绝对的，信息的这一定义就不是很恰当。
实例分析
除了分析对条件熵的定义可以看出来问题症结所在以外，还可以举两个反例说明：
例子一：由于某学校纪律严明，一般学生来学校上课的时间都比较确定，都能提前到校，迟到概率为0.01。但是甲从乙处得到消息：“某同学丙是最不遵守纪律的（包括迟到）”。此消息对于“甲从乙处得到了什么消息”而言，或者乙告诉甲关于丙同学的什么情况而言，是消除了不确定性。但是本来根据前面已知的学校纪律严明的理由来推测，丙同学很可能是上课的时间是比较确定的，丙不迟到的先验概率可能有0.99，迟到概率可能只有0.01，但是知道从乙处得到消息以后，丙不迟到的后验概率减少了（假设后验的丙不迟到的概率大于0.01）。根据信息量的计算方法，甲得到乙的消息以后，我们以乙的消息为条件，关于丙到校时间的信息量不仅没有增加，反而信息量减少了，后验熵大于先验熵。
例子二：明文空间为M＝{0,1}。根据当时的通信语境，已知明文是0的先验概率为0.9，明文是1的先验概率为0.1。现在在这个基础上另外知道一些新的信息，这些信息包括：密文空间为C＝{0,1}，密钥空间为K＝{ 0,1}，密钥随机分布，采用一次一密体制进行加密，且知道密文是0。我们仅仅考虑这些新的信息情况下明文的概率分布，由于密文无论是0，根据密钥随机分布的特点，可以反推出明文在已知密码体制，已知密文是确定的，而且密钥是随机等概率分布的条件，可以得出明文是0的概率为0.5，明文是1的概率为0.5。我们以这些新的信息为条件，来计算后验概率，由于前面我们得出的概率与先验概率不一致，因此需要折衷，经过折衷以后的后验概率，明文是0的概率在0.9至0.5之间，可以看出此时明文的值更加不确定了，后验熵大于先验熵[7]。
以上分析说明香农的信息是消除随机不确定性的东西的定义是局限的，信息不能对任何事件都是消除随机不确定性，只能从平均意义上消除随机不确定性，或者信息只能对自己本身任何时候都消除不确定性。
实际上即使我们得出的后验概率和先验概率一样，也不能完全否认我们没有得到任何信息，好比听到甲说某一事情，又听到乙说同样的事情，虽然事情的随机不确定性没有改变，但是事情的可靠性增加了，不能因为不确定性没有改变就认为没有得到信息，可见有必要引入新的度量指标。实际上这一局限源于香农用概率来定义信息的时候，没有考虑到概率不是固定的，概率本身也具有随机不确定性，有它的概率分布。假如我们对某一事物仅仅是掌握了一些不可靠或者片面的信息，则其真实的信息可能是几个不同的信息之一，因此用以表达真实信息的概率值可能是多个值，而不是一个固定的值，比如我们得到不可靠的消息，明天百分之七十的可能下雨，由于这一信息不可靠，所以明天真正可能下雨的概率应该是以0.7为中心的一个随机变量，而不是固定值0.7。
基于可靠性的信息定义
现实中的信息往往不是绝对可靠的，而且信息还有不完全等特点，那么在现实中，如何来让信息更加可靠，让信息更加完备，就是人们对信息技术的一种需求。
考虑到可靠性是人们对信息的一种非常重要的需求，而且人工智能，信息融合技术都试图来解决这些问题。信息的意义和价值之所以存在，本质上还是因为信息具有一定的可靠性，可以说这是信息很重要的一个属性。然而，现实中的信息的可靠性往往都不是绝对的，而是相对的，表现在信息存在噪声，误差，不完备性等[5]。人们也力求让自己得到的信息更加可靠。这是笔者建议将信息研究的重点，信息的度量，信息的定义都转向可靠度上的根本原因。考虑目前信息定义的缺陷，以及香农信息定义名不副实的问题，笔者在这里对信息的定义做一个修改，不能尽善尽美，但是能够消除目前定义的一些缺陷，一方面尽量防止概念的狭隘、片面性，另外一方面也避免概念过大，过于空洞而不能提供可以测度，可以理解的“信息”，笔者提出信息的定义如下：信息是在受限制的条件下（比如编码长度限制，分析计算能力限制，分辨率限制等）和考虑各种代价的情况下，尽力追求更高的准确性和可靠性的前提下，通过各种被认可的条件、因素、事实和知识等，以各种被认为精确的或者近似的算法、理论等技术手段或者是人工手段（思考等），采用在一定程度可信的方式直接或间接获得的（被信息处理者认为）对事物更加可靠认识的，可以消除、增加或者不改变不确定性的东西。这一定义也是有一定的局限性，但是，对处理现实中的大多数问题已经足够。
在这里的定义中，我们还强调了信息的产生的方式，产生信息的基础，信息的处理方式。这为进行各种信息的获取，信息的处理，信息的融合，信息的运用奠定了一个基础，为信息论的推广应用做好了必要的准备。
比较香农的消除不确定性和这里的增加可靠性，可以发现追求准确性、完备性和可靠性应该是信息论的目标，是前提，而不确定性的消除是一种瓜熟蒂落的自然结果，可以说是一种副产品，不过有时候也可能是不确定性增加或者不变。在不可靠但是确定的信息和可靠但是不确定的信息之间进行选择的时候，任何理智的人都会选择后者，说明可靠性比确定性更加重要。如果我们放弃可靠性这一目标，要消除不确定性是非常容易的，比如可以改变概率最大值的概率值为1，其他的概率值变成0，信息就是确定的。
以上定义主要从信息处理的角度来看待信息，而且为了让定义尽量严谨，定义比较繁杂。我们也可以模仿香农的定义，将信息定义简化为增加可靠性（消除不可靠性）的东西。这一定义我们并不做严格的论证。当然，这有一个前提是信息本身具有一定的可靠性，而且这种可靠性和信息论的许多概念一样依然是从概率和统计意义上的，对于具体的少部分情况，可能会导致可靠性减少。从仙农的得到了关于x的认识以后，得出y的后验概率可以看出，人们会选择后验概率，而不是先验概率，这种选择不是因为它更加确定了，而是因为通过得到x的认识以后，y的信息更加完备和可靠了。至于关于信息是增加可靠性的东西，我们还可以进行如下分析和论证：
首先，人们利用信息，不是以消除不确定性为首要的目的，而是以可靠性和正确性为目的，要消除不确定性，我们可以选择概率最大的把它当作必然事件，或者干脆随便选择一个，都可以消除不确定性。但是人们无论是消除不确定性，还是增加不确定性，都是以增加可靠性为目标的。其次，信息是否可以增强可靠性。我们提出了一些针对满足一定条件的算法（可能可以推广到一般情况），通过信息融合和折衷以后，具有一定程度可靠性的信息总是可以增加（或者不改变）其他任何信息的可靠性和完备性（不改变的情况包括信息已经是绝对可靠的，绝对完备的，或者两个信息是无关的，以及两个信息的相关关系是未知的）。最后，从理性的角度，只要有一定可靠的信息，它一定可以作为一种参考，它如果可以增加其他信息的可靠性就可以利用它来增加可靠性，如果不行可以不利用。综上所述，我们认为它可以增加可靠性。
当然，针对信息的可靠性问题，还需要进行更多的论证和研究。香农用概率来表达信息，虽然香农没有明说该概率值是固定（确定）值，不可以是任意的随机变量，但是从信息论的公式和应用中可以看出来概率值被当作固定值来对待，否则，信息论中的许多公式都是无法计算的，比如熵的公式在概率值是随机变量的时候是无法计算的。笔者指出，为什么信息论缺乏对可靠性的度量，在于人们将信息表示中的概率当作确定的值，而不是随机变量，实际上确定值是随机变量的一个特例[7]。不可靠的信息，具有多种的可能性，因而它的信息表示是有多种可能性的，所以表达它们的概率不应该是确定值，而应当是随机变量，当然表达信息所采用的概率的不确定性可以来表征信息的可靠程度，比如越是可靠的信息，表示它的概率值的概率分布越是集中，目前的超熵理论涉及到此，但是还有待更加深入的研究。
信息定义的适用性分析
我们提出的新的信息定义，除了让信息的定义更加符合实际情况，还是要将信息论与其他的信息技术融合起来，让信息定义适用于信息技术。同时，以信息的新定义促进“信息－知识－智能”的转换和融合，让该定义促进人工智能、信息融合等技术的发展。
这里的定义比其他的定义更加具有普遍适用性，且满足解决现实问题的需求，体现在：第一，它承认了信息可能是不可靠的，这可以包容不可靠的信息。实际上，大多数信息都不是绝对可靠的。在文献[8]中，分析了导致信息不可靠、不完备的各种因素，包括信息的离散表示、信息的精确度、主观因素的影响、理论带来的偏差等等，指出大多数的信息都不是绝对可靠的（注：信息的完备性问题可以归结为可靠性问题）。第二，它承认信息可能增加不确定性，这样适合一些增加不确定性的信息。第三，人们都希望信息更加可靠，一些人工智能、信息融合、不确定性理论，都在研究这些问题，对信息可靠性的认识有利于这些理论研究的更加深入以及将这些理论与信息论融合起来。第四，现实中的信息问题比现有的信息相关理论的假定更加复杂，特别是在可靠性方面，信息的新定义利于将这些问题纳入研究范畴。第五，信息可靠性本身也是基于表达信息的概率值可能是随机变量的认识，这一认识将会促进概率论的拓展，将概率论问题复杂化用于解决许多新的现实问题。在文献［9］中有一定的分析。
为了区别于以往的信息论（包括广义信息论）中存在的不考虑信息的可靠性和完备性或者认为信息就是完全可靠完备的局限性，我们在这里以相对信息论区别于其他已有的信息论。物理中物体运动的相对性是它的参照系，而这里信息的相对性针对的是我们认定的条件，包括哪些信息的可靠的，哪些信息是不可信的，它们的可靠程度如何等等。我们建立一个信息产生的模型：首先，信息处理者从各方收集信息，比如可以从不同的人或者资料来获取信息，这许多的信息需要进行相关的处理，处理者可以根据各种已知的知识，规律等等来进一步衍生新的信息，好比机械设备在获得一定的作用的时候，它会根据机械设备的机制来作用于其他的物体，从而衍生了新的作用。衍生的信息以及最初获得的各种信息之间本身还可能不一致，有些是相互补充的，有些则是不一致的，因此需要整合和折衷，这好比机械设备产生的一些作用导致一些被作用的物体相互发生碰撞，产生反作用，或者由于力的作用在同一个物体上，力的作用不一致的时候，最终对物体的作用是这些力的综合。折衷整合的时候需要以我们认定的条件为基础，包括各个信息的可靠程度。

图1 相对信息论的信息产生模型

结束语
本文从新的角度指出了香农信息论的局限性，指出了它没有考虑信息的可靠性，完备性等特点，指出条件熵的命名问题，并且举例证明了熵不增并不是绝对的，进而指出香农信息定义中的不确定性的减少也不是绝对的，在这些分析的基础上给出了信息的新定义以及与信息相关的一些模型。针对本文提出的信息折衷融合问题，我们也提出了一些算法。新的定义将会大大拓展信息论的研究领域，与人工智能和信息融合等技术接轨[10,11]，同时也促进概率论等其他学科发展。

参考文献
［1］Shannon C E. A mathematical theory of communication，Bell System Technical Journal,27 (1948)，379—429，623—656
［2］鲁晨光，广义信息论，中国科技大学出版社，1993
［3］钟义信．信息科学原理[M]．第3版，北京：北京邮电大学出版社。2002．
［4］Geogre J K.An update on generalized information theory[A].ISIPTA[C].2003.321～334.
［5］王勇，论信息定义之舍本逐末，首届全国社会信息科学研讨会论文集，2007年06月
［6］钟义信. 论“信息-知识-智能转换规律”[J] .北京邮电大学学报 , 2007,(01) .
［7］王勇，朱芳来，一次一密体制的安全性分析与改进，四川大学学报（工程科学版），2007，39（5）增刊
［8］王勇，论信息的相对性，首届全国社会信息科学研讨会论文集，2007年06月
［9］王勇.一次一密体制的安全局限性及其根源分析[OL]. www.paper.edu.cn, 2007年8月28日.（电子科技录用）
［10］彭冬亮，文成林，徐晓滨，薛安克，随机集理论及其在信息融合中的应用，电子与信息学报，2006，28（11）：2199-2204
［11］Geogre J K, Richard M S.Recent developments in generalized information theory[J]. International Journal of Fuzzy Systems, 1999,1:1～13.

项目资助：广西自然科学基金项目(桂科自


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	78.125ms