Setup
考虑一个样本数为 $n$ 的数据集 $S_{train} = \left\{ (x_{1}, y_{1}), \cdots, (x_{n}, y_{n}) \right\}$. 我们的目标是去优化这样一个损失函数:
Loss Function
$\ell$ 在这里取 cross entropy loss. $\lambda$ 是 weight decay, 用来控制 L2 正则项.
我们用 SGD 来优化模型, 迭代形式为:
SGD
$\eta$ 和 $B$ 分别是 learning rate, batch size
我们这里考察的是一个分类问题, 它的准确率为:
acc
训练集的准确率表示为:
测试集的准确率 $acc_{test}$ 同理.
Mode connectivity
Mode Connectivity 是用来衡量两个参数配置 $\theta$ 和 $\theta’$ 之间的连接性.
它通过寻找一条连接这两个配置的最低能量路径 $\gamma_{\phi}(t)$ 来描述它们之间的连通路径.
最低能量路径
路径 $\gamma(t)$ 的能量表示为:
这条路径是通过 Bezier 曲线参数化得到的,其中 $t \in[0, 1]$,并且路径上的能量(即损失函数 $L$ 的积分 $\int \mathcal{L}(\gamma(t)) dt$)被最小化.