Skip to content

Commit f86ad9a

Browse files
refac: Distinguish between embedding and representation
1 parent df472ee commit f86ad9a

File tree

3 files changed

+36
-36
lines changed

3 files changed

+36
-36
lines changed

notes/machine_learning/miscellaneous.ipynb

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -575,12 +575,12 @@
575575
"\n",
576576
"#### Введение\n",
577577
"\n",
578-
"В области автоматической обработки текстов первичные векторные вложения строятся для токенов, а уже из них получаются вложения для более крупных сущностей (предложений, текстов, названий и т.д.).\n",
578+
"В области автоматической обработки текстов первичные векторные представления строятся для токенов, а уже из них получаются представления для более крупных сущностей (предложений, текстов, названий и т.д.).\n",
579579
"\n",
580580
"В качестве токенов можно брать слова, как это сделано, например, в word2vec, но у такого подхода есть недостаток: слова, не попавшие в обучающую выборку, должны заменяться на специальный токен неизвестного слова (\\<UNK\\>). Однако если в таких словах есть какие-либо информативные составляющие (например, угадывается знакомая часть слова), это хотелось бы тоже использовать.\n",
581581
"\n",
582582
"Крайностью, гарантирующей, что любой текст будет разбит на известные токены, является подход, в котором токенами являются все отдельные символы, но это влечёт за собой свои проблемы:\n",
583-
"* вложения символов, скорее всего, окажутся неинформативными, потому что у символов нет смысловой нагрузки (мало ли в каких словах встретилась буква «а»);\n",
583+
"* векторные представления символов, скорее всего, окажутся неинформативными, потому что у символов нет смысловой нагрузки (мало ли в каких словах встретилась буква «а»);\n",
584584
"* длина каждого из текстов, измеренная в токенах, будет максимальной, что замедлит обучение и применение, а также в некоторых случаях может отрицательно сказаться на последовательной генерации из-за возросшей вероятности прийти к сгенерированному началу, не похожему ни на что из обучающей выборки.\n",
585585
"\n",
586586
"Таким образом, нужны специальные алгоритмы токенизации, которые позволяли бы вычленить из текстов максимум полезной информации, превращая хоть сколько-нибудь частые слова в токены, а редкие или незнакомые слова разбивая на по возможности более длинные токены.\n",

0 commit comments

Comments
 (0)