|
240 | 240 | "source": [ |
241 | 241 | "## Регуляризация штрафом, накладываемым на норму обучаемых параметров\n", |
242 | 242 | "\n", |
243 | | - "Пусть есть метод машинного обучения, который настраивает по данным вектор параметров модели $\\theta$. Напомним, что эмпирическим риском называется среднее по обучающей выборке $(X_\\mathrm{train}, y_\\mathrm{train})$ значение функции потерь на объектах из неё, и именно эту величину метод машинного обучения должен минимизировать. Обозначим эмпирический риск за $E(\\theta) = E(\\theta, X_\\mathrm{train}, y_\\mathrm{train})$, то есть далее краткости ради зависимость от $(X_\\mathrm{train}, y_\\mathrm{train})$ будет опускаться. \n", |
| 243 | + "#### Введение\n", |
| 244 | + "\n", |
| 245 | + "Пусть есть метод машинного обучения, который настраивает по данным вектор параметров модели $\\theta$. Напомним, что эмпирическим риском называется среднее по обучающей выборке $(X_\\mathrm{train}, y_\\mathrm{train})$ значение функции потерь на объектах из неё, и именно эта величина минимизируется в процессе обучения. Обозначим эмпирический риск за $E(\\theta) = E(\\theta, X_\\mathrm{train}, y_\\mathrm{train})$, то есть далее краткости ради зависимость от $(X_\\mathrm{train}, y_\\mathrm{train})$ будет опускаться. \n", |
| 246 | + "\n", |
| 247 | + "В общем случае регуляризацией называются любые изменения в процессе обучения, от которых ошибка на обучающей выборке не уменьшается, а вот на тестовой выборке уменьшается.\n", |
244 | 248 | "\n", |
245 | | - "В общем случае регуляризацией называются любые изменения в процессе обучения, от которых ошибка на обучающей выборке не уменьшается, а вот на тестовой выборке уменьшается. Частным случаем регуляризации является добавление к эмпирическому риску штрафного слагаемого:\n", |
| 249 | + "Частным случаем регуляризации является добавление к эмпирическому риску штрафного слагаемого:\n", |
246 | 250 | "$$\\alpha \\Vert \\theta \\Vert_p = \\alpha \\left(\\sum_{i=1}^k \\vert \\theta_i \\vert^p\\right)^\\frac{1}{p},$$\n", |
247 | | - "где $\\alpha \\ge 0$ — гиперпараметр, задающий силу регуляризации, а $k$ — длина вектора $\\theta$.\n", |
| 251 | + "где $\\alpha \\ge 0$ — гиперпараметр, задающий силу регуляризации, а $k$ — длина вектора $\\theta$. Такая регуляризация применима для линейных моделей, нейронных сетей и других методов, где большие по норме веса могут сопутствовать переобучению. \n", |
248 | 252 | "\n", |
249 | | - "Наиболее часто используются значения $p = 1$ ($L_1$-регуляризация, LASSO Тибширани) и $p = 2$ ($L_2$-регуляризация, гребневая регрессия). Первый из этих вариантов приводит к занулению параметров, слабо влияющих на эмпирический риск, а второй — лишь к затуханию таких параметров.\n", |
| 253 | + "Наиболее часто используются значения $p = 1$ ($L_1$-регуляризация, LASSO Тибширани) и $p = 2$ ($L_2$-регуляризация, гребневая регрессия). Первый из этих вариантов приводит к занулению параметров, слабо влияющих на эмпирический риск, а второй — лишь к затуханию таких параметров. Причины этого отличия будут разобраны ниже в соответствующем разделе.\n", |
250 | 254 | "\n", |
251 | | - "Чтобы понять, чем вызвано это отличие, посмотрим на добавление штрафа $\\alpha \\Vert \\theta \\Vert_p$ под другим углом. Рассмотрим задачу, которая, на первый взгляд, может показаться иной: минимизировать $E(\\theta)$ при ограничении $\\Vert \\theta \\Vert_p \\le c$, где $c > 0$ — заданная константа. Функция Лагранжа для такой задачи имеет вид:\n", |
| 255 | + "#### Связь с ограничением нормы весов\n", |
| 256 | + "\n", |
| 257 | + "Посмотрим на добавление штрафа $\\alpha \\Vert \\theta \\Vert_p$ под другим углом. Рассмотрим задачу, которая, на первый взгляд, может показаться иной: минимизировать $E(\\theta)$ при ограничении $\\Vert \\theta \\Vert_p \\le c$, где $c > 0$ — заданная константа. Функция Лагранжа для такой задачи имеет вид:\n", |
252 | 258 | "$$L(\\theta, \\lambda) = E(\\theta) + \\lambda (\\Vert \\theta \\Vert_p - c),$$\n", |
253 | 259 | "где $\\lambda \\ge 0$ (неотрицательность $\\lambda$ возникает, потому что эта $\\lambda$ относится к ограничению в виде неравенства, а если бы было ограничение в виде равенства, то $\\lambda$ могла бы быть любым числом).\n", |
254 | 260 | "\n", |
|
259 | 265 | "Из этих двух соображений вытекает, что следующие две задачи эквивалентны:\n", |
260 | 266 | "$$\\min_\\theta \\max_{\\lambda \\ge 0} L(\\theta, \\lambda),$$\n", |
261 | 267 | "$$\\min_{\\theta, \\Vert \\theta \\Vert_p \\le c} E(\\theta).$$\n", |
262 | | - "Если вернуться к регуляризации штрафом на норму, эквивалентность этих двух задач означает, что для каждого $\\alpha > 0$ существует $c > 0$, такое что задача минимизации регуляризированного эмпирического риска эквивалентна задаче минимизации эмпирического риска без регуляризации, но с ограничением $\\Vert \\theta \\Vert_p \\le c$. Чем меньше $\\alpha$, тем больше $c$, а при $\\alpha = 0$ получаем, что, грубо говоря, $c = +\\infty$, то есть ограничения нет. Биекция, отображающая $\\alpha$ в $c$, зависит от $E(\\theta)$ и, в частности, от $(X_\\mathrm{train}, y_\\mathrm{train})$, так что в общем случае у неё нет явного аналитического вида. Поэтому иногда бывает удобнее регуляризацию на норму $\\theta$ формулировать через $c$, а не через $\\alpha$: например, если подобная формулировка имеет интерпретацию, связанную с решаемой задачей.\n", |
| 268 | + "Если вернуться к регуляризации штрафом на норму, эквивалентность этих двух задач означает, что для каждого $\\alpha > 0$ существует $c > 0$, такое что задача минимизации регуляризованного эмпирического риска эквивалентна задаче минимизации эмпирического риска без регуляризации, но с ограничением $\\Vert \\theta \\Vert_p \\le c$. Чем меньше $\\alpha$, тем больше $c$, а при $\\alpha = 0$ получаем, что, грубо говоря, $c = +\\infty$, то есть ограничения нет. Биекция, отображающая $\\alpha$ в $c$, зависит от $E(\\theta)$ и, в частности, от $(X_\\mathrm{train}, y_\\mathrm{train})$, так что в общем случае у неё нет явного аналитического вида. Поэтому иногда бывает удобнее регуляризацию на норму $\\theta$ формулировать через $c$, а не через $\\alpha$: например, если подобная формулировка имеет интерпретацию, связанную с решаемой задачей.\n", |
| 269 | + "\n", |
| 270 | + "#### Сравнение $L_1$- и $L_2$-регуляризаций\n", |
| 271 | + "\n", |
| 272 | + "В свете предыдущего раздела получается, что $L_1$-регуляризация ищет $\\theta$ в $k$-мерном кубе с центром в начале координат и вершинами, у которых ровно одна координата равна $c$, а остальные равны 0. Ну а $L_2$-регуляризация ищет $\\theta$ в $k$-мерном шаре с центром в начале координат и радиусом $c$. Этот куб содержится в этом шаре. Более того, при увеличении $c$ шар может касаться линий уровня $E(\\theta)$ любой своей точкой, но для куба из-за его геометрии выше шансы, что он впервые пересечёт линию уровня $E(\\theta)$ ребром, а не гранью. Это и объясняет, откуда берётся отбор параметров.\n", |
263 | 273 | "\n", |
264 | | - "Наконец, вернёмся к сравнению $L_1$- и $L_2$-регуляризаций. Получается, первая из них ищет $\\theta$ в $k$-мерном кубе с центром в начале координат и вершинами, у которых ровно одна координата равна $c$, а остальные равны 0. Вторая же ищет $\\theta$ в $k$-мерном шаре с центром в начале координат и радиусом $c$. Этот куб содержится в этом шаре. Более того, при увеличении $c$ шар может касаться линий уровня $E(\\theta)$ любой своей точкой, но для куба из-за его геометрии выше шансы, что он впервые пересечёт линию уровня $E(\\theta)$ ребром, а не гранью. Это и объясняет, откуда берётся отбор признаков. А для понимания, почему что отбор параметров у $L_1$-регуляризации, что затухание параметров у $L_2$-регуляризации затрагивают слабо влияющие параметры, а не важные параметры, можно взглянуть на иллюстрацию со страницы 229 книги [Goodfellow, Bengio, Courville (2016)](https://www.deeplearningbook.org/contents/regularization.html)." |
| 274 | + "Наконец, для понимания, почему что отбор параметров у $L_1$-регуляризации, что затухание параметров у $L_2$-регуляризации затрагивают слабо влияющие параметры, а не важные параметры, можно взглянуть на иллюстрацию со страницы 229 книги [Goodfellow, Bengio, Courville (2016)](https://www.deeplearningbook.org/contents/regularization.html)." |
265 | 275 | ] |
266 | 276 | }, |
267 | 277 | { |
|
0 commit comments