Дедлайн: 2 апреля 23:59.
После дедлайна работы не принимаются.
В качестве ответа загрузите файлы .lexd и .twol.
Surname_hw2_01.lexd
Surname_hw2_01_01.twol
Surname_hw2_01_02.twol
Surname_hw2_02.lexd
Surname_hw2_02.twol
Surname_hw2_03.lexd
Surname_hw2_03.twol
Неправильные формат файла и название штрафуются.
Если вы дорешали задание до промежуточного пункта, можете указать это в названии: Surname_hw2_03_02.lexd - решение 2ого пункта 3его задания.
При возникновении вопросов, пишите Тане в тг.
Все пункты стоят 1 балл.
1.1 Перед вами черновик lexd файла. Поправьте его при необходимости и напишите twol файл так, чтоб получались правильные формы единственного и множественного числа.
Пример: quiz<pl>:quizzes
Тест: test_hw2_01_01
Название файлов: Surname_hw2_01.lexd, Surname_hw2_01_01.twol
%%writefile task.lexd
PATTERNS
NounRoot NounInfl
LEXICON NounRoot
dog
cat
bus
fox
watch
wish
quiz
LEXICON NounInfl
<sg>:
<pl>:{S}
1.2 Измените twol файл так, чтоб на выходе получались сегментированные формы:
Пример: quiz<sg>:quiz, quiz<pl>:quizz>es
Тест: test_hw2_01_02
Название файла: Surname_hw2_01_02.twol
В чукотском языке (< чукотско-камчатские) есть гармония гласных по подъёму (Скорик 1961). Гласные делятся на "слабые" и "сильные". В одном слове могут быть гласные только одной группы: если хотя бы в одной морфеме присутствует сильный гласный, в его группу переходят все гласные слова (e>a, i>e, u>o). Ещё есть ə: не влияет на гармонию, не вызывает изменения, не изменяется.
| группа | |||
|---|---|---|---|
слабые [-VH] |
e | i | u |
сильные [+VH] |
a | e | o |
На самом деле все морфемы (в том числе те, где вообще нет гласных) делятся на сильные и слабые. Просто по некоторым морфемам мы это понимаем сразу (по гласным i, u, а, о), а где-то надо подставить их в словоформы со слабыми гласными (если гармония изменится, значит, наша морфема сильная, если нет - слабая).
Смоделируйте некоторые словоформы:
| тег | форма | [-VH] | [+VH] | ||||
|---|---|---|---|---|---|---|---|
| 'иголка' | 'спичка' | 'собака' | 'олень' | 'кузина' | 'камень' | ||
| titi- | miɬɣ- | ʔəttʔ- | qora- | ŋawjoɬ- | wəkw- | ||
| <ins> | -(t)e [-VH] |
titite | miɬɣe | ʔəttʔe | qorata | ŋawjoɬa | wəkwa |
| <dat> | -ɣtə/-etə [+VH] |
teteɣtə | meɬɣetə | ʔəttʔetə | qoraɣtə | ŋawjoɬetə | wəkwetə |
| <loc> | -k [-VH] |
titik | miɬɣək | ʔəttʔək | qorak | ŋawjoɬək | wəkwək |
| <com>...<sim> | ɣа- -ma [+VH] |
ɣаtetemа | ɣаmeɬəmа | ɣʔəttʔəma | ɣаqoramа | ɣаŋawjoɬma | ɣаwəkwəma |
| <dim> | -qej [-VH] |
titiqej | miɬɣəqej | ʔəttʔəqej | qoraqaj | ŋawjoɬqaj | wəkwəqaj |
| <go.to><inf> | -ɣt [+VH] -k [-VH] |
teteɣtək | meɬɣəɣtək | ʔəttʔəɣtək | qoraɣtək | ŋawjoɬəɣtək | wəkwəɣtək |
Попробуйте не создавать два варианта для каждой морфемы с изначально слабой гармонией (но штрафовать за такое решение мы не будем).
2.1 Научитесь разбирать слова с основой на гласный, устроенные как 'иголка' и 'олень'.
Примеры:
ɣаtetemа 'с иголкой' — <com>titi<sim>
qoraɣtək 'пойти к оленям' — qora<go.to><inf>
Тест: test_hw2_02_01
2.2 Научитесь разбирать слова с основой на согласный, устроенные как 'спичка' и 'кузина'.
Тест: test_hw2_02_02
2.3 Добавьте правила для слов, устроенных как 'собака' (c гортанной смычкой и гласным в начале). И слова с корнем 'камень' тоже должны разбираться.
Тест: test_hw2_02_03
3.1 Перед вами фрагмент эвенской (< тунгусо-манчьжурские) парадигмы спряжения глаголов в будущем времени из (Бурыкин 2002). В HW1 вы уже написали морфологический анализатор для первых столбцов этой таблицы. Научитесь разбирать остальные.
Пример разбора: ilčaǯip 'мы с тобой сплетём' — ilča<v><fut><p1><inc><pl>
| форма | сплести | запрячь | навьючить | проснуться | увидеть | дойти |
|---|---|---|---|---|---|---|
| 1SG | ilčaǯim | aluǯim | inuǯim | m'alǯim | itčim | isčim |
| 2SG | ilčaǯinri | aluǯinri | inuǯinri | m'alǯinri | itčinri | isčinri |
| 3SG | ilčaǯin | aluǯin | inuǯin | m'alǯin | itčin | isčin |
| 1PL.EXC | ilčaǯiru | aluǯiru | inuǯiru | m'alǯiru | itčiru | isčiru |
| 1PL.INC | ilčaǯip | aluǯip | inuǯip | m'alǯip | itčip | isčip |
| 2PL | ilčaǯis | aluǯis | inuǯis | m'alǯis | itčis | isčis |
| 3PL | ilčaǯir | aluǯir | inuǯir | m'alǯir | itčir | isčir |
Тест: test_hw2_03_01
3.2 В эвенском языке есть гармония гласных по ряду. Выбор a/e в суффиксах зависит от корня1. Добавьте в анализатор формы небудущего времени для глаголов с основой на гласный.
Пример разбора: ilčaram 'я сплёл' — ilča<v><nfut><p1><sg>
| форма | основа на гласный | основа на согласный | основа на -n | |||||
|---|---|---|---|---|---|---|---|---|
| сплести | запрячь | навьючить | проснуться | увидеть | дойти | удивиться | сказать | |
| 1SG | ilčaram | aluram | inurem | m'alram | ittem | issam | m'anam | gɵnem |
| 2SG | ilčanri | alunri | inunri | m'alanri | ičinri2 | isanri | m'ananri | gɵnenri |
| 3SG | ilčan | alun | inun | m'alran | itten | issan | m'anni | gɵnni |
| 1PL.EXC | ilčaru | aluru | inuru | m'alru | ittu | issu | m'anu | gɵnu |
| 1PL.INC | ilčarap | alurap | inurep | m'alrap | ittep | issap | m'anap | gɵnep |
| 2PL | ilčas | alus | inus | m'alas | ičis | isas | m'anas | gɵnes |
| 3PL | ilčar | alur | inur | m'alra | itte | issa | m'an | gɵn |
Тест: test_hw2_03_02
Чтобы не было ошибки овергенерации, можно временно закомментировать основы на согласный.
3.3 Добавьте в анализатор формы небудущего времени для глаголов с основой на согласный.
Тест: test_hw2_03_03
3.4 В быстринском диалекте эвенского r после n и l всегда ассимилируется. То есть 'ты увидишь' - itčinni, 'он проснулся' - m'allan. А ещё вместо s во всех позициях в незаимствованных словах š. Сделайте так, чтобы предсказывались и литературные формы (itčinri, isčis), и диалектные (itčinni, iščiš). Могут быть слова, в которых только одна из диалектных особенностей (iščinri, isčinni), но сама особенность внутри слова последовательна: (iščiš, не isčiš, не iščis).
Тест: test_hw2_03_04
3.5 Добавьте в анализатор литературные и диалектные формы небудущего времени для глаголов с основой на -n.
Тест: test_hw2_03_05