Hyperparameter Tuning

这篇paper是阅读AABO以及其前置paper的阅读归纳.这其中的问题是如何进行自动化的超参数的调参。

由于超参数无法通过机器学习本身的优化算法优化，generally speaking是一个无法获得梯度的优化问题。因而可以理解为是一个黑盒优化问题。

传统优化理论来说，黑盒优化常见的求解方法是搜索:

在深度学习阶段，深度强化学习也被用于黑盒优化。

但是对于基于神经网络的超参数优化来说，特点在于每一组超参的evaluation所需要的算力比较大。因而需要data efficient的超参搜索算法。

Surrogate Function

这一类的算法的 motivation 在于根据现有的超参、性能数据组拟合一个 "value function"，然后根据这个价值函数引导后续的搜索。

在数据点数量较少的情况下，一个常见的拟合算法就是GP. 下图引自 medium.

由于很多超参的设置是呈树状结构(存在层级结构)，且是离散值。这时候比较采用的是 TPE算法。

算法的框架是将现有的数据点根据performance的排序，分为"好"的点以及"不好"的点;然后用核函数(如混合高斯模型)来拟合好的点的概率分布以及不好的点的概率分布:

$p(x \mid y)=\left\{\begin{array}{ll} \ell(x) & \text { if } y<y^{*} \\ g(x) & \text { if } y \geq y^{*} \end{array}\right.$

当前估计的最优点则是 $EI = \frac{l(x)}{g(x)}$ 取最大值的点。

Hyperband属于随机搜索算法.

首先通过直观例子介绍successive halfing algorithm:

由于每次丢弃的比例是一个可以调节的重要的超参。Hyperband可以理解为对 $n$ 进行Grid Search.

BOHB融合了 surrogate model 与hyperband的思路。

使用 TPE对超参数组的性能进行预估，并选择需要分析的超参组。使用Hyperband降低分析所需要的时间。

这篇paper首先是一篇针对提升目标检测性能的文章。作者通过一些简单的实验得到两个结论:

然后提出了