Skip to content

Commit 9488eef

Browse files
refac: Structure the note on regularization by norm
1 parent 6e5ec4d commit 9488eef

File tree

1 file changed

+17
-7
lines changed

1 file changed

+17
-7
lines changed

notes/machine_learning/theory_of_machine_learning.ipynb

Lines changed: 17 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -240,15 +240,21 @@
240240
"source": [
241241
"## Регуляризация штрафом, накладываемым на норму обучаемых параметров\n",
242242
"\n",
243-
"Пусть есть метод машинного обучения, который настраивает по данным вектор параметров модели $\\theta$. Напомним, что эмпирическим риском называется среднее по обучающей выборке $(X_\\mathrm{train}, y_\\mathrm{train})$ значение функции потерь на объектах из неё, и именно эту величину метод машинного обучения должен минимизировать. Обозначим эмпирический риск за $E(\\theta) = E(\\theta, X_\\mathrm{train}, y_\\mathrm{train})$, то есть далее краткости ради зависимость от $(X_\\mathrm{train}, y_\\mathrm{train})$ будет опускаться. \n",
243+
"#### Введение\n",
244+
"\n",
245+
"Пусть есть метод машинного обучения, который настраивает по данным вектор параметров модели $\\theta$. Напомним, что эмпирическим риском называется среднее по обучающей выборке $(X_\\mathrm{train}, y_\\mathrm{train})$ значение функции потерь на объектах из неё, и именно эта величина минимизируется в процессе обучения. Обозначим эмпирический риск за $E(\\theta) = E(\\theta, X_\\mathrm{train}, y_\\mathrm{train})$, то есть далее краткости ради зависимость от $(X_\\mathrm{train}, y_\\mathrm{train})$ будет опускаться. \n",
246+
"\n",
247+
"В общем случае регуляризацией называются любые изменения в процессе обучения, от которых ошибка на обучающей выборке не уменьшается, а вот на тестовой выборке уменьшается.\n",
244248
"\n",
245-
"В общем случае регуляризацией называются любые изменения в процессе обучения, от которых ошибка на обучающей выборке не уменьшается, а вот на тестовой выборке уменьшается. Частным случаем регуляризации является добавление к эмпирическому риску штрафного слагаемого:\n",
249+
"Частным случаем регуляризации является добавление к эмпирическому риску штрафного слагаемого:\n",
246250
"$$\\alpha \\Vert \\theta \\Vert_p = \\alpha \\left(\\sum_{i=1}^k \\vert \\theta_i \\vert^p\\right)^\\frac{1}{p},$$\n",
247-
"где $\\alpha \\ge 0$ — гиперпараметр, задающий силу регуляризации, а $k$ — длина вектора $\\theta$.\n",
251+
"где $\\alpha \\ge 0$ — гиперпараметр, задающий силу регуляризации, а $k$ — длина вектора $\\theta$. Такая регуляризация применима для линейных моделей, нейронных сетей и других методов, где большие по норме веса могут сопутствовать переобучению. \n",
248252
"\n",
249-
"Наиболее часто используются значения $p = 1$ ($L_1$-регуляризация, LASSO Тибширани) и $p = 2$ ($L_2$-регуляризация, гребневая регрессия). Первый из этих вариантов приводит к занулению параметров, слабо влияющих на эмпирический риск, а второй — лишь к затуханию таких параметров.\n",
253+
"Наиболее часто используются значения $p = 1$ ($L_1$-регуляризация, LASSO Тибширани) и $p = 2$ ($L_2$-регуляризация, гребневая регрессия). Первый из этих вариантов приводит к занулению параметров, слабо влияющих на эмпирический риск, а второй — лишь к затуханию таких параметров. Причины этого отличия будут разобраны ниже в соответствующем разделе.\n",
250254
"\n",
251-
"Чтобы понять, чем вызвано это отличие, посмотрим на добавление штрафа $\\alpha \\Vert \\theta \\Vert_p$ под другим углом. Рассмотрим задачу, которая, на первый взгляд, может показаться иной: минимизировать $E(\\theta)$ при ограничении $\\Vert \\theta \\Vert_p \\le c$, где $c > 0$ — заданная константа. Функция Лагранжа для такой задачи имеет вид:\n",
255+
"#### Связь с ограничением нормы весов\n",
256+
"\n",
257+
"Посмотрим на добавление штрафа $\\alpha \\Vert \\theta \\Vert_p$ под другим углом. Рассмотрим задачу, которая, на первый взгляд, может показаться иной: минимизировать $E(\\theta)$ при ограничении $\\Vert \\theta \\Vert_p \\le c$, где $c > 0$ — заданная константа. Функция Лагранжа для такой задачи имеет вид:\n",
252258
"$$L(\\theta, \\lambda) = E(\\theta) + \\lambda (\\Vert \\theta \\Vert_p - c),$$\n",
253259
"где $\\lambda \\ge 0$ (неотрицательность $\\lambda$ возникает, потому что эта $\\lambda$ относится к ограничению в виде неравенства, а если бы было ограничение в виде равенства, то $\\lambda$ могла бы быть любым числом).\n",
254260
"\n",
@@ -259,9 +265,13 @@
259265
"Из этих двух соображений вытекает, что следующие две задачи эквивалентны:\n",
260266
"$$\\min_\\theta \\max_{\\lambda \\ge 0} L(\\theta, \\lambda),$$\n",
261267
"$$\\min_{\\theta, \\Vert \\theta \\Vert_p \\le c} E(\\theta).$$\n",
262-
"Если вернуться к регуляризации штрафом на норму, эквивалентность этих двух задач означает, что для каждого $\\alpha > 0$ существует $c > 0$, такое что задача минимизации регуляризированного эмпирического риска эквивалентна задаче минимизации эмпирического риска без регуляризации, но с ограничением $\\Vert \\theta \\Vert_p \\le c$. Чем меньше $\\alpha$, тем больше $c$, а при $\\alpha = 0$ получаем, что, грубо говоря, $c = +\\infty$, то есть ограничения нет. Биекция, отображающая $\\alpha$ в $c$, зависит от $E(\\theta)$ и, в частности, от $(X_\\mathrm{train}, y_\\mathrm{train})$, так что в общем случае у неё нет явного аналитического вида. Поэтому иногда бывает удобнее регуляризацию на норму $\\theta$ формулировать через $c$, а не через $\\alpha$: например, если подобная формулировка имеет интерпретацию, связанную с решаемой задачей.\n",
268+
"Если вернуться к регуляризации штрафом на норму, эквивалентность этих двух задач означает, что для каждого $\\alpha > 0$ существует $c > 0$, такое что задача минимизации регуляризованного эмпирического риска эквивалентна задаче минимизации эмпирического риска без регуляризации, но с ограничением $\\Vert \\theta \\Vert_p \\le c$. Чем меньше $\\alpha$, тем больше $c$, а при $\\alpha = 0$ получаем, что, грубо говоря, $c = +\\infty$, то есть ограничения нет. Биекция, отображающая $\\alpha$ в $c$, зависит от $E(\\theta)$ и, в частности, от $(X_\\mathrm{train}, y_\\mathrm{train})$, так что в общем случае у неё нет явного аналитического вида. Поэтому иногда бывает удобнее регуляризацию на норму $\\theta$ формулировать через $c$, а не через $\\alpha$: например, если подобная формулировка имеет интерпретацию, связанную с решаемой задачей.\n",
269+
"\n",
270+
"#### Сравнение $L_1$- и $L_2$-регуляризаций\n",
271+
"\n",
272+
"В свете предыдущего раздела получается, что $L_1$-регуляризация ищет $\\theta$ в $k$-мерном кубе с центром в начале координат и вершинами, у которых ровно одна координата равна $c$, а остальные равны 0. Ну а $L_2$-регуляризация ищет $\\theta$ в $k$-мерном шаре с центром в начале координат и радиусом $c$. Этот куб содержится в этом шаре. Более того, при увеличении $c$ шар может касаться линий уровня $E(\\theta)$ любой своей точкой, но для куба из-за его геометрии выше шансы, что он впервые пересечёт линию уровня $E(\\theta)$ ребром, а не гранью. Это и объясняет, откуда берётся отбор параметров.\n",
263273
"\n",
264-
"Наконец, вернёмся к сравнению $L_1$- и $L_2$-регуляризаций. Получается, первая из них ищет $\\theta$ в $k$-мерном кубе с центром в начале координат и вершинами, у которых ровно одна координата равна $c$, а остальные равны 0. Вторая же ищет $\\theta$ в $k$-мерном шаре с центром в начале координат и радиусом $c$. Этот куб содержится в этом шаре. Более того, при увеличении $c$ шар может касаться линий уровня $E(\\theta)$ любой своей точкой, но для куба из-за его геометрии выше шансы, что он впервые пересечёт линию уровня $E(\\theta)$ ребром, а не гранью. Это и объясняет, откуда берётся отбор признаков. А для понимания, почему что отбор параметров у $L_1$-регуляризации, что затухание параметров у $L_2$-регуляризации затрагивают слабо влияющие параметры, а не важные параметры, можно взглянуть на иллюстрацию со страницы 229 книги [Goodfellow, Bengio, Courville (2016)](https://www.deeplearningbook.org/contents/regularization.html)."
274+
"Наконец, для понимания, почему что отбор параметров у $L_1$-регуляризации, что затухание параметров у $L_2$-регуляризации затрагивают слабо влияющие параметры, а не важные параметры, можно взглянуть на иллюстрацию со страницы 229 книги [Goodfellow, Bengio, Courville (2016)](https://www.deeplearningbook.org/contents/regularization.html)."
265275
]
266276
},
267277
{

0 commit comments

Comments
 (0)