第1章信息几何简介
随着信息几何在统计推断、神经网络、信号处理、纠错码、机器学习、图像处理、控制理论、几何力学等领域的成功应用,信息几何的理论和应用正在受到人们的髙度关注.为什么信息领域里的问题需要用几何的方法来解决呢?*先,统计学中参数估计的Cramer-Rao(C-R)不等式的下界与Fisher信息度量密切相关,而Fisher信息度量作为统计流形的黎曼度量是信息几何的关键.其次,信息领域中的问题往往具有非线性与随机性,许多非线性问题如果在欧氏框架下处理,可能带来较大的误差,达不到所要求的精度,而黎曼几何是研究非线性问题的有效工具.对于非线性问题,可以把所研究的问题纳入到微分流形的框架,尽管流形本身是非线性的,但是在其上面每一点处定义线性的切空间,在切空间上定义内积(黎曼度量),从而可以定义距离、联络、测地线、测地距离以及描述空间弯*程度的几何量-*率等.借助于黎曼几何,特别是利用测地距离与*率,可以对承载信息的空间给予精细的几何刻画.同时,把随机变量全体纳入几何框架下进行处理,可以达到去随机性的效果.
称满足正则条件的一族概率密度函数为统计流形.Rao提出了Fisher信息度量可以作为统计流形的黎曼度量,这成为信息几何诞生的起源.CencovMl引入了一族仿射联络,并证明了Fisher信息度量与联络在统计流形上的唯一性.Efron提出了利用*率研究统计推断的渐近理论,但他所定义的*率不是几何意义上的*率.Dawidl根据Efron的研究结果,提出了联络的概念.Amari计算了Levi-Civita联络(黎曼联络)下一元正态分布族构成的统计流形的高斯*率,惊讶地发现它竟然是一个负常*率的双*空间,随机分布的集合在几何框架下成为确定的几何空间,消除了随机性,并认为如此美妙的结果一定会有很好的应用前景.于是,Amari等致力于信息几何理论框架的建立.他们发现,黎曼联络虽好(具有对称性和相容性),但是限制太多,无法有效地解决统计中的一些问题.类似于黎曼联络定义中度量与联络的相容性,他们提出了对偶联络的概念,是对**的黎曼联络的推广,由此建立信息几何的理论框架,这是信息几何发展的里程碑.为了将对偶联络具体化,他们定义了具有对称性的a-联络,将关于黎曼联络的保内积性质推广为关于对偶联络的保内积性质.他们构造了对偶平坦空间的几何结构,通过对偶势函数定义了散度函数,该散度函数只满足非负性,不满足距离公理中的对称性和三角不等式.众所周知,一方面,弯*空间中的“直线”就是所谓的测地线,局部地,它是连接流形上两点之间距离的*短线,而Amari等利用对偶联络定义了两条对偶的测地线,由此可以研究对偶平坦空间中一点到它的子空间的*短距离问题.另一方面,既然信息几何是建立在黎曼流形上,在研究一个目标函数的*小值时就不能用欧氏空间中的梯度下降法,取而代之的是黎曼梯度下降法,该梯度与定义在流形上的黎曼度量有关.利用黎曼梯度算法可以减少迭代次数,缓解陷于局部极小现象,而且在一些情形下算法的效果等同于批次算法.指数分布族包含指数分布、正态分布、二项分布、泊松分布、多项式分布等,而指数分布族的几何结构由势函数完全确定.Amari获得了指数分布族关于对偶参数的有效估计结果,其中C-R下界由Fisher信息度量确定,而对于非指数分布族,则利用对偶联络的几何度量给出了渐近的有效估计结果.Amari等把随机神经网络一玻尔兹曼机看成统计流形,获得了玻尔兹曼机的信息几何学习算法.
上面介绍的是**信息几何,它的研究对象是随机的情形.人们自然要问,对于非随机的情形应该有什么样的理论?Barbaresco,Nielsen,Pennec等提出了矩阵信息几何的概念.顾名思义,矩阵信息几何是基于黎曼几何框架的矩阵空间的几何结构,研究信息领域中的问题.在矩阵信息几何中,一般线性群的子群和子流形的几何结构发挥着重要的作用.实际上,人们发现利用矩阵李群或矩阵流形的几何结构在处理许多实际问题时更加有效.李群是具有群结构的微分流形.既然李群是微分流形,可以在其上定义黎曼度量以及距离函数,该距离满足距离函数的三条公理.李群拥有的乘法运算结构给我们带来许多方便,通过左(右)移动可以用单位元处的切空间(李代数)的内积表示李群上任意一点处的切空间上的内积,李代数与李群之间可由指数映射和对数映射相联系,由此可以获得测地线以及测地距离的一般表达式.GL(n,R)的一些李子群,如正交群、酉群以及辛群是紧致的,因此具有非常特殊的性质.譬如,紧致李群上存在双不变度量,拥有非负的截面*率,经过单位元的单参数子群就是测地线,而且经过任意一点处的测地线可由过单位元处的测地线的左(右)移动给出.作为的子流形,正定矩阵流形具有良好的几何性质,在其上可以定义不同的黎曼度量,使其在不同的黎曼度量下呈现出不同的几何结构.SPD(n)在仿射不变度量下成为一个带有非正*率的Hadamard空间,其上任意两点都可由显式表达的测地线连接,而且测地距离具有显式的表示.由于两个正定矩阵关于矩阵的乘法运算不能保证它们还是对称矩阵,所以SPDip本身不是群,当然不是李群.Arsigny等利用指数映射在SPD{n)上定义了新的乘法运算,使得SPDW成为阿贝尔李群,其上存在双不变的黎曼度量.利用指数映射可以获得测地距离的简单表达形式,在实际计算时显示出速度上的优势.利用黎曼淹没理论,等在和之间建立了等距映射,利用丛空间GL(n,R)上的距离函数表示底空间SPD{p)上任意两点间的测地距离,该距离恰好等于定义在零平均值的正态分布流形上的Wasserstein度量所诱导的Wasserstein距离.SPD(n)在Wasserstein度量下的截面*率为正.在研究定义在GL(n,R)的子群或子流形上的优化问题时,通常设法给出测地线和测地距离等重要几何量的表达式,把测地距离作为目标函数,利用黎曼梯度等算法计算*优解.对于许多实际问题,充分利用矩阵信息几何良好的几何结构,可以给出优化算法的解析表达式.
随着信息几何的理论在各领域的成功应用,人们有理由相信:信息几何不仅理论优美,而且具有广泛的实际应用前景.
正如信息几何的名字,充分利用几何结构来刻画信息是信息几何的根本内涵.例如著名的流形学习理论中的降维方法是线性降维方法主成分分析法一的推广,其本质上是充分利用数据所依附的流形空间的几何结构进行降维.令人遗憾的是,迄今为止,黎曼几何*重要的概念一*率一在信息几何研究中并没有充分发挥作用.另外,人们对于统计流形的拓扑结构更是所知无几,这是信息几何理论一个明显的有待完善之处.这些问题的解决对信息几何的发展至关重要.
信息几何涉及多个数学分支,特别是黎曼几何.黎曼几何本身是一个重要的数学分支,以拓扑学、微分流形等作为基础.目前,信息几何的基本理论框架并不涉及复杂与深刻的数学理论,所以读者掌握了黎曼几何等基本理论就可以进行信息几何的学习和研究.但是,如果要有所创新,深入推进信息几何的理论与应用研究,就需要掌握更加深刻的数学理论,包括李群与李代数、代数拓扑、纤维丛以及代数几何等.
展开