《流形学习若干关键问题与算法研究》:
在流形学习方法中,首先需要对每个数据构造其邻域结构,然后整合所有如此构造的局部邻域结构以形成整体数据集上的连通邻域图。因此,对流形数据定义合理的邻域结构在很大程度上决定着流形学习方法的最终有效性。常用的邻域结构定义方法包括k—近邻法与ε—近邻法。k—近邻法将距离数据最近的k个数据定义为其邻域,ε一近邻法将与数据间的距离小于阈值ε的所有数据定义为其邻域。在实际应用中,邻域尺寸k或ε一般不能选取过小或过大。若取值过小,则将导致整合的邻域结构不能形成连通的全局邻域图(此即“非连通”问题)。由于现有流形学习方法均基于连通邻域图工作,此“非连通”问题便会导致方法失效。而若取值过大,则将发生所谓的“短路”问题,即流形数据的邻域结构将极大地偏离数据分布的流形面。显然,此时构造的邻域图不能真实反映数据所在流形的几何形状,因而流形学习方法的降维效果便变得十分不理想(从保持原数据结构与特征的意义上)。
当数据分布在连通流形上时,通过构造合适的模型选择方法对邻域尺寸进行合理选取,“非连通”与“短路”问题能够同时得到解决。然而,对于分布在非连通流形(或多个流形片)上的数据,情况却完全不同。在这种情况下,只有选择很大的邻域尺寸,才可能避免流形学习的非连通问题。但同时,短路问题却必然随之发生。
……
展开