神经网络训练中的拓扑演化

语言: CN / TW / HK

以 卷积层- ReLU层 累积结构为代表的CNN训练过程中,我们可以注意到,在训练的早起,各层的对输入图像的激活情况是比较随机的,表现为布满斑点而稠密。随着训练的进行,激活表现的更加稀疏且集中。在训练完成后,各层的filter激活在情况上也表现为些许的不同:底层Conv滤波器的激活更分散,而高层Conv的激活表现的更为集中(localized)

conv1
conv5

这一感官上的变化趋势,可以使用一些数学工具进行量化。

基本拓扑概念

拓扑数据分析(Topological Data Analysis, TDA)

想象一下我们要表示一组100维的数据集 . 除了使用n个100维的向量,我么可以在这100维的空间中,根据这n个数据点之间的拓扑特性和关系,唯一性的确定这个数据集.

描述数据点之间的拓扑关系的办法有很多种,最基础的描述办法是单纯复形(Simplicial Complexes). 也就是对数据空间中的各个点取半径为特定值( )的球体,根据这些球体相交的情况,按照不同的定义形成 链(chains)、环(cycles)等结构.

上图中,右侧是最简单的半径 下的维托里斯-里普斯复形(Vietoris–Rips Complex), 当连个相邻点之间的球体相交但是互不包含中心点时,形成链,如果链形成封闭,就形成环,三角形甚至更高维度的结构。这些基本结构都被称为单纯形,单纯形进一步组合成单纯复形。左边是切赫复形(Čech Complex),只在相邻的d+1 个球体之间的交非空时才形成环。

在固定了半径 和复形规则之后,这个多维空间中的复形就称为了数据集的唯一性描述。

持续同调(Persistent Homology)

上文中我么定义了复形,其定义跟半径 有直接关系。对同一个数据集,如果我么从0开始逐步增大半径 , 那么复形结构就会发生变化。复形中的单纯形会随着半径 的变化出现和消亡。如果我么在以 为横坐标的坐标图上绘制这些单纯形的生命周期横线段(A~D),也就构成了 持续性条码(Persistence Barcode, E). 进而,根据每条条形码的出现点和持续情况,可以绘制出持续图(Persistence Diagram, E):

在持续图上,离斜角线越远的点,表示其结构持续时间越长,也就是同调结构越稳定。

持续图景(Persistence Landscapes)

在持续图中,每个拓扑元素结构对应点的横坐标和纵坐标分别为 出生 和 消亡(下图左上). 如果我们把坐标变换一下,可以转换成右上图(以及对应结构的持续条形码). 下行则为持续图景的二维和三维形式样。

持续图景代表了当前单纯复形的贝蒂数(Betti number). 持续图景可以理解为持续同调的feature map 和 核(Kernel).

从神经网络构建拓扑结构

从神经网络结构中选取一定的节点A(某一层的神经元,滤波器等),输入一组数据 , 计算这些节点之间的相关性,构成相关性向量,相当于把神经网络结构和训练状态映射到度量空间 . 在此基础之上可以构建持续同调,并计算出对应的拓扑参数.

固定网络结构和训练状态,在距离 增大的过程中,我们得到不同的单纯复形 .

在对应的一系列持续图中,我们可以定义其中的“洞”(Cavity)的生命周期,也就可以计算其中洞的平均生命周期 和平均中值生命期(平均持续密度) :

应用

从经验来看,训练好的网络激活情况跟刚开始训练的不一样,过拟合的网络激活情况也表现出特定的模式,这些都可以在拓扑结构参数上表现出来。

随着模型准确率的增加,模型各层的拓扑结构复杂性增加;对于同一组数据,模型各层的激活拓扑结构复杂性会随着层数的增加而降低。 这种变化规律为我们描述模型性能提供了一种不依赖测试数据的 拓扑角度的度量。也就是说,这些拓扑结构参数蕴含了模型在训练集和测试集上性能表现的差异 .

从训练集拓扑结构参数可以得知模型在测试集上的表现

参考

  1. Wasserman, Larry. "Topological data analysis." Annual Review of Statistics and Its Application 5 (2018): 501-532.
  2. ^ Chazal, Frédéric, and Bertrand Michel. "An introduction to topological data analysis: fundamental and practical aspects for data scientists." Frontiers in Artificial Intelligence 4 (2021).
  3. Chambers, Erin W., et al. "Vietoris–rips complexes of planar point sets." Discrete & Computational Geometry 44.1 (2010): 75-90.
  4. Kim, J. , et al. "Homotopy Reconstruction via the Cech Complex and the Vietoris-Rips Complex." (2019).
  5. Bubenik, P. . "Statistical topological data analysis using persistence landscapes." (2012).
  6. Duke, R. A. . "The genus, regional number, and Betti number of a graph." Canadian Journal of Mathematics 18(1966):817-822.
  7. Corneanu, C. , et al. "Computing the Testing Error without a Testing Set." 2020.
  8. Wheeler, M. , J. Bouza , and P. Bubenik . "Activation Landscapes as a Topological Summary of Neural Network Performance." (2021).