Setup

考虑一个样本数为 $n$ 的数据集 $S_{train} = \left\{ (x_{1}, y_{1}), \cdots, (x_{n}, y_{n}) \right\}$. 我们的目标是去优化这样一个损失函数:

Loss Function

$\ell$ 在这里取 cross entropy loss. $\lambda$ 是 weight decay, 用来控制 L2 正则项.

我们用 SGD 来优化模型, 迭代形式为:

SGD

$\eta$ 和 $B$ 分别是 learning rate, batch size

我们这里考察的是一个分类问题, 它的准确率为:

acc

训练集的准确率表示为:

测试集的准确率 $acc_{test}$ 同理.

Mode connectivity

Mode Connectivity 是用来衡量两个参数配置 $\theta$ 和 $\theta’$ 之间的连接性.
它通过寻找一条连接这两个配置的最低能量路径 $\gamma_{\phi}(t)$ 来描述它们之间的连通路径.

最低能量路径

路径 $\gamma(t)$ 的能量表示为:

这条路径是通过 Bezier 曲线参数化得到的,其中 $t \in[0, 1]$,并且路径上的能量(即损失函数 $L$ 的积分 $\int \mathcal{L}(\gamma(t)) dt$)被最小化.