Nikolay-Lysenko
diff --git a/‎notes/machine_learning/miscellaneous.ipynb‎
Lines changed: 2 additions & 2 deletions b/‎notes/machine_learning/miscellaneous.ipynb‎
Lines changed: 2 additions & 2 deletions
@@ -575,12 +575,12 @@
     "\n",
     "#### Введение\n",
     "\n",
-    "В области автоматической обработки текстов первичные векторные вложения строятся для токенов, а уже из них получаются вложения для более крупных сущностей (предложений, текстов, названий и т.д.).\n",
+    "В области автоматической обработки текстов первичные векторные представления строятся для токенов, а уже из них получаются представления для более крупных сущностей (предложений, текстов, названий и т.д.).\n",
     "\n",
     "В качестве токенов можно брать слова, как это сделано, например, в word2vec, но у такого подхода есть недостаток: слова, не попавшие в обучающую выборку, должны заменяться на специальный токен неизвестного слова (\\<UNK\\>). Однако если в таких словах есть какие-либо информативные составляющие (например, угадывается знакомая часть слова), это хотелось бы тоже использовать.\n",
     "\n",
     "Крайностью, гарантирующей, что любой текст будет разбит на известные токены, является подход, в котором токенами являются все отдельные символы, но это влечёт за собой свои проблемы:\n",
-    "* вложения символов, скорее всего, окажутся неинформативными, потому что у символов нет смысловой нагрузки (мало ли в каких словах встретилась буква «а»);\n",
+    "* векторные представления символов, скорее всего, окажутся неинформативными, потому что у символов нет смысловой нагрузки (мало ли в каких словах встретилась буква «а»);\n",
     "* длина каждого из текстов, измеренная в токенах, будет максимальной, что замедлит обучение и применение, а также в некоторых случаях может отрицательно сказаться на последовательной генерации из-за возросшей вероятности прийти к сгенерированному началу, не похожему ни на что из обучающей выборки.\n",
     "\n",
     "Таким образом, нужны специальные алгоритмы токенизации, которые позволяли бы вычленить из текстов максимум полезной информации, превращая хоть сколько-нибудь частые слова в токены, а редкие или незнакомые слова разбивая на по возможности более длинные токены.\n",